版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、文本聚類技術作為文本挖掘中的一個技術分支,發(fā)揮著越來越重要的作用。文本聚類技術能夠將相似的文本進行歸類,方便了各個領域的人員從海量的文本信息中挖掘潛在的、有價值的信息。
本文采用復旦大學中文文本語料庫進行文本聚類研究,根據(jù)文本的相似度并結合相應的聚類算法將相似的文本聚集成簇。因為中文文本自身的結構特點,在文本聚類之前需要對文本進行相應的文本預處理,即對文本進行分詞并去除無用的停用詞。本文使用中科院分詞系統(tǒng)(ICTCLAS)對文
2、本分詞并使用哈工大停用詞表過濾停用詞。接著為了得到能夠有效表示文本內容的特征詞,進行特征詞的選擇。最后考慮到計算機不能直接處理非結構或者半結構的信息,本文采用向量空間模型(VSM)來表示文本、詞頻-逆文檔頻率(TF-IDF)值來表示每個特征詞的權重值。
通過分析文本處理的整個過程發(fā)現(xiàn),如果直接將預處理后的關鍵詞直接組成向量空間模型,那么該模型就會存在著維度過高和數(shù)據(jù)元素稀疏問題。為了解決其問題,本文首先分兩步對特征詞進行篩選,
3、第一步使用卡方檢驗的方法對特征詞初步提取,得到特征詞集合,第二步對特征詞集合進行基于語義的層次聚類,合并特征詞集合中同義或者相近的詞。接著,計算過濾后特征詞集合中每一個詞的TF-IDF值并生成向量空間模型。然而,此時生成模型仍然具有著高維度和元素稀疏的缺陷,本文采用奇異值分解的方法,找到向量空間模型的隱含語義空間,實現(xiàn)向量空間模型的降維并減少了噪聲點的干擾。通過以上方法的處理,保持了原有模型的特性,有效的降低了矩陣的維度,提高文本聚類的
4、效率。
文本降維處理后,接下來就是選擇合適的文本聚類算法。目前存在較多的文本聚類算法,根據(jù)聚類實現(xiàn)方法的不同大致可分為基于劃分、層次、密度、模型聚類方法。傳統(tǒng)的文本聚類算法存在需預先確定簇數(shù)、無自組織等不足。所以本文采用了可以實現(xiàn)自組織的蟻群文本聚類算法作為最終的文本聚類算法。
通過分析基本的蟻群文本聚類算法可知,基本算法中也存在著諸多的不足,比如迭代的次數(shù)過多、螞蟻在二維平面中移動過于隨機等等,這些因素影響了算法的
5、收斂速度和文本聚類效果。本文在基本算法的基礎上,采用了幾種改進的措施,它們分別是修改算法終止條件使算法的結束不在簡單的依賴最大迭代次數(shù),避免了無意義空耗時間;動態(tài)調整螞蟻的觀察半徑使螞蟻以線性遞減的方式調整觀察半徑,平衡了算法收斂速度和聚類效果;制定三種移動策略使螞蟻在拾起、放下文本后移動的方向具有了目標性,提高了文本聚類的效果。
最后,通過相關的實例展示了本文采用的文本降維方法的具體實現(xiàn)過程,證明了方法的可行性。使用復旦大學
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于蟻群算法的中文本聚類研究.pdf
- 基于蟻群的文本聚類算法的改進研究.pdf
- 蟻群文本聚類算法的研究與應用.pdf
- 基于統(tǒng)計降維和Kohonen網(wǎng)絡的文本聚類和分類研究.pdf
- 基于蟻群的文本文檔聚類技術研究.pdf
- 基于蟻群算法的聚類算法研究.pdf
- 基于蟻群算法的混合聚類算法研究.pdf
- 基于譜聚類的文本聚類算法研究.pdf
- 基于NMF算法的文本聚類研究.pdf
- 基于DBSCAN的文本聚類算法研究.pdf
- 基于蟻群優(yōu)化的聚類算法的研究.pdf
- 基于蟻群的聚類算法應用研究.pdf
- 基于蟻群算法的雙向聚類問題研究.pdf
- 基于蟻群算法的網(wǎng)絡社區(qū)聚類算法研究.pdf
- 基于文本聚類的特征選擇算法研究.pdf
- 基于語義距離的文本聚類算法研究.pdf
- 基于云計算的文本聚類算法研究.pdf
- 基于hSync算法的文本聚類方法研究.pdf
- 基于語義的短文本聚類算法研究.pdf
- 基于計算智能的文本聚類算法研究.pdf
評論
0/150
提交評論