版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、伴隨著網(wǎng)絡(luò)的迅猛發(fā)展,人們要接受的信息數(shù)量也成幾何級數(shù)的增長。面對Internet中海量的、紛繁蕪雜的信息,如文本信息、聲音信息、視頻信息等等,如何快速有效的獲取信息知識,并且能按照某種特定的結(jié)構(gòu)模型進(jìn)行有序化的整理,這無疑是一個很重要的課題。信息處理技術(shù)的目的就是從雜亂的信息中發(fā)掘最有效的信息,經(jīng)過十幾年的長足發(fā)展,信息處理技術(shù)已取得了較大的進(jìn)步。文本分類技術(shù)的任務(wù)就是基于文本內(nèi)容,從給定的類別集中找出一個或多個相似的文本類別,指定于
2、待分類文本,目前常用的方法是基于機(jī)器學(xué)習(xí)和概率統(tǒng)計的文本分類方法。
在現(xiàn)實(shí)的分類體系中,類別具有多層次的組織結(jié)構(gòu)模式,而傳統(tǒng)的文本分類思想恰恰忽略了對層次的考慮。概念層次樹的構(gòu)建,為用戶提供了可視化瀏覽及搜索的操作功能,同時體現(xiàn)了文本庫中文本間的語義聯(lián)系。層次分類的核心思想是“分塊而治”,分類過程從根節(jié)點(diǎn)開始,將待分類文本與各級節(jié)點(diǎn)進(jìn)行比較,劃分到最相似的一個或幾個分類樹節(jié)點(diǎn)下,最終當(dāng)?shù)竭_(dá)葉子節(jié)點(diǎn)時分類過程結(jié)束。
文
3、本分類技術(shù)經(jīng)歷了從基于規(guī)則到基于統(tǒng)計,再到如今規(guī)則與統(tǒng)計相結(jié)合的研究發(fā)展過程。其中向量空間模型是較為常用的數(shù)學(xué)模型,該模型將詞條表示為特征向量,由特征向量表征文檔,但該模型只關(guān)注了詞形結(jié)構(gòu),忽略了詞義聯(lián)系。本文利用潛在語義索引和隱馬爾可夫模型等方法,充分利用了文本中隱含語義信息,并依此實(shí)現(xiàn)文本層次分類,本文主要研究內(nèi)容包含以下幾個方面:
(1)介紹了層次文本分類技術(shù)的基本方法和關(guān)鍵技術(shù),并參考分析了國內(nèi)外相關(guān)工作的研究進(jìn)展,指
4、出在文本層次分類應(yīng)用中的不足,目前常用的分類法缺少對文本語義信息的考慮,并且分類性能受噪聲影響較大,今后的研究應(yīng)該更注重文本的語義聯(lián)系。
(2)提出了基于潛在語義的文本層次分類法。在以層次結(jié)構(gòu)表示的文本類別中,每一個類別就是一個主題。在文本分類過程中,包含主題類別的詞條比其它詞條更為重要。本文就提出使用Gibbs抽樣的方法,來抽取一系列的概率主題類別標(biāo)簽,文本就由這些概率主題來表示,然后將主題類別標(biāo)簽運(yùn)用于潛在語義分類模型的構(gòu)
5、建。本文提出的基于潛在語義索引的模型,探索了主題標(biāo)簽在層次文本分類中的作用。實(shí)驗(yàn)結(jié)果表明,該方法有效的提高了分類精度。
(3)提出了基于改進(jìn)隱馬爾可夫的文本分類過程。在層次文本分類中,主題類別是按照預(yù)定的層次關(guān)系進(jìn)行劃分的。通過主題類別的劃分就是要將分類任務(wù)細(xì)化為小的子問題,然后對每個主題類別構(gòu)建一個分類器,最后通過這些子分類器將待分類文本分到層次結(jié)構(gòu)中相應(yīng)的類別。在樹形結(jié)構(gòu)中,待分類文檔只與某主題類別節(jié)點(diǎn)下的文檔比較,只是在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中文文本層次分類研究及其在唐詩分類中的應(yīng)用.pdf
- 中文文本分類中文本表示及分類算法研究.pdf
- 中文文本情感分類研究.pdf
- 中文文本分類的研究與應(yīng)用.pdf
- 中文文本分類研究.pdf
- 中文文本自動分類的應(yīng)用研究.pdf
- 中文文本分類中特征選擇方法的應(yīng)用與研究.pdf
- 中文文本分類方法的研究與實(shí)現(xiàn).pdf
- 基于統(tǒng)計方法的中文文本自動分類研究.pdf
- 中文文本自動分類方法的研究和實(shí)現(xiàn).pdf
- 基于NMF的中文文本分類方法.pdf
- 中文文本數(shù)據(jù)分類研究.pdf
- 中文文本情感分類的研究.pdf
- 中文文本分類算法研究.pdf
- 中文文本自動分類算法研究.pdf
- 中文文本分類的研究.pdf
- 一種中文文本分類方法的研究及實(shí)現(xiàn).pdf
- K-近鄰中文文本分類方法的研究.pdf
- 基于機(jī)器學(xué)習(xí)的中文文本分類方法研究
- 基于機(jī)器學(xué)習(xí)的中文文本分類方法研究.pdf
評論
0/150
提交評論