用于文本分類的簡明語義分析技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩114頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、文本是獲取、存儲、傳播信息最有效的途徑。目前人類正面對著信息的海洋,海量的文本信息儲存了人類知識和文化的精華,也是人類文明得以延續(xù)和發(fā)展的保證。文本分類技術(shù)的作用就是利用計算機輔助,幫助人們對文本進行歸類、整理。作為自然語言處理和文本自動化處理的一個基礎(chǔ)應(yīng)用,文本分類一直都被研究者們所關(guān)注。
   文本表示是文本分類的一個關(guān)鍵步驟。文本表示指的是如何將人能閱讀和理解的自然語言文本表示為計算機可讀的數(shù)據(jù),本質(zhì)上是一個信息轉(zhuǎn)換的過程

2、。我們總是希望能夠?qū)⒈M可能充足和完備的信息傳遞給計算機,然而計算機只有對數(shù)據(jù)進行存儲和計算的能力,無法像人腦一樣對文本進行語義分析。為克服經(jīng)典詞袋模型的高維和詞語獨立性假設(shè)的缺陷,本文提出了一種用于文本分類的簡明語義分析方法,將詞語和文本片段在一個較低維的概念空間中進行表示,從而實現(xiàn)詞語和文本片段的語義分析。同時為考察簡明語義分析在大規(guī)模數(shù)據(jù)集上應(yīng)用的潛力,深入分析了簡明語義分析的可擴展性與并行化。為充分利用文本中的詞序信息,本文提出了

3、一種可以保留原文詞語順序的詞串模型,將文本表示為概念空間中的向量串,并提出兩種向量串相似度計算方法,設(shè)計了一個擬k-NN分類器,并通過實驗對詞串模型的性能進行了驗證。論文主要成果如下:
   ①提出了一種基于類標的簡明語義分析技術(shù)。簡明語義分析技術(shù)是針對文本分類提出的一種文本表示技術(shù),可以將文本表示在被類標派生出來的概念所構(gòu)成的空間中。根據(jù)語料庫的不同,本文提出直接派生、拆分派生和組合派生三種派生方式。針對不同的語料庫可以選取不

4、同的方式,構(gòu)造簡潔有效的概念空間。
   ②提出了一種詞語與概念之間相關(guān)度計算的方法。本文提出的方法基于信息集中度的思想,將文本長度當做詞語重要性的一個影響因素,實現(xiàn)了詞語在概念空間中的有效表示,并通過對比實驗證明了簡明語義分析在文本分類應(yīng)用中的有效性。
   ③對簡明語義分析的可擴展性和并行化做了深入分析。證明了簡明語義分析良好的可擴展性和并行化簡明語義分析的高效率,為簡明語義分析在大規(guī)模數(shù)據(jù)集上的應(yīng)用奠定了理論基礎(chǔ)。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論