版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、目前,隨著網(wǎng)絡(luò)技術(shù)與計算機技術(shù)的日益發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為當(dāng)前人們獲取信息的主要來源之一。面對著互聯(lián)網(wǎng)上信息日益持續(xù)地增長,僅僅使用傳統(tǒng)方法想要從大規(guī)模的數(shù)據(jù)中獲取自身確切需要的信息已變得越來越難。因此,如何有效的組織和管理這些信息成為當(dāng)前急需解決的問題,而文本聚類分析正是一種有效的組織和管理文本信息的工具,它能發(fā)現(xiàn)大規(guī)模數(shù)據(jù)中潛在的有用模式。
然而,對大規(guī)模文本數(shù)據(jù)進(jìn)行聚類時,傳統(tǒng)聚類算法的時間復(fù)雜度很高;且當(dāng)數(shù)據(jù)出現(xiàn)更新時,
2、必須對整個數(shù)據(jù)集進(jìn)行重新聚類,這也大大地降低了聚類的效率。針對這些問題,人們非常期望進(jìn)行增量更新,而增量聚類算法就是在已有聚類結(jié)果的基礎(chǔ)之上,通過對新增數(shù)據(jù)逐個或者批量進(jìn)行處理,能夠降低聚類時間復(fù)雜度,提高聚類效率,但如何保證增量聚類算法能達(dá)到傳統(tǒng)聚類算法的效果是一個值得研究的問題。
本文提出了一種基于簇特征的文本增量聚類算法,該算法由初始聚類和增量聚類兩個階段組成。在初始聚類階段,本文首先充分利用簡單、高效的k-means算
3、法進(jìn)行聚類,并保留聚類后每個簇的簇中心、均值、方差、文檔數(shù)、3階中心矩和4階中心矩作為該簇的簇特征;當(dāng)出現(xiàn)新增文本時,算法進(jìn)入增量聚類階段,首先計算新增文本與初始聚類階段所得簇之間的得分,為進(jìn)一步提高聚類的準(zhǔn)確度,本文使用文本與簇的相似度值結(jié)合歐幾里得距離值的方式計算新增文本與已有簇之間的得分,之后將該文本放入得分最高的簇中,并更新該簇的簇特征,最后利用更新前后簇特征的變化確定文本最終所屬簇。通過該方法,我們就無需再對整個數(shù)據(jù)集重新進(jìn)行
4、聚類。
本文的工作主要包括以下兩點:
1、提出了基于簇特征的文本增量聚類算法,并將該算法與文本非增量聚類算法(即傳統(tǒng)聚類算法)的結(jié)果進(jìn)行了比較。在20newsgroups數(shù)據(jù)集上的實驗結(jié)果表明,相比于對整個數(shù)據(jù)集進(jìn)行重新聚類,本文提出的算法有更高的純度及更低的時間復(fù)雜度,并能達(dá)到比傳統(tǒng)聚類算法更好的效果;且將其與新近提出的文本增量聚類算法進(jìn)行比較的結(jié)果也說明其具有一定的優(yōu)勢。
2、使用將相似度與歐式距離值相
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于簇相合性的文本增量聚類算法研究.pdf
- 基于文本聚類的特征選擇算法研究.pdf
- 基于增量聚類和ReliefF的特征選擇方法.pdf
- 基于特征加權(quán)的半監(jiān)督文本聚類研究.pdf
- 基于聚類的增量數(shù)據(jù)挖掘研究.pdf
- 基于特征詞的文本聚類算法研究.pdf
- 基于頻繁特征詞語集的文本聚類研究.pdf
- 基于特征間隙檢測簇數(shù)的譜聚類算法研究.pdf
- 聚類算法及基于簇模式聚類集成研究.pdf
- 基于譜聚類的文本聚類算法研究.pdf
- 面向增量式文本聚類的層次可視化方法研究.pdf
- 基于增量聚類的新聞話題發(fā)現(xiàn)研究.pdf
- 基于TFIDF-GA特征選擇的文本模糊聚類方法研究.pdf
- 基于模糊聚類的增量式挖掘算法研究.pdf
- 基于《知網(wǎng)》的文本聚類研究.pdf
- 基于NMF算法的文本聚類研究.pdf
- 基于RI方法的文本聚類研究.pdf
- 基于LDA模型的文本聚類研究.pdf
- 基于DBSCAN的文本聚類算法研究.pdf
- 基于多核學(xué)習(xí)的多視圖增量聚類模型研究.pdf
評論
0/150
提交評論