版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著微博這種新興的社交平臺(tái)迅速發(fā)展,越來越多的用戶使用,并且在上面發(fā)布事件信息,由于微博的傳播速度非常迅速,對(duì)新聞傳播的意義非常大,從微博數(shù)據(jù)中發(fā)現(xiàn)熱點(diǎn)事件有著極大的需求。但是由于微博數(shù)據(jù)擁有規(guī)模大、噪聲多、文本較短等特點(diǎn),給話題檢測(cè)與跟蹤帶來了巨大的挑戰(zhàn)。
本文在別人研究關(guān)于話題檢測(cè)與跟蹤的基礎(chǔ)上,分析傳統(tǒng)的話題檢測(cè)與跟蹤算法的缺點(diǎn),提出一個(gè)基于倒排索引的方法來提高算法的處理速度,但不降低算法的精度。通過對(duì)微博數(shù)據(jù)分析,人工
2、建立一些規(guī)則對(duì)微博數(shù)據(jù)進(jìn)行噪聲處理。然后對(duì)數(shù)據(jù)建立倒排索引,并進(jìn)行話題檢測(cè)與跟蹤。對(duì)于每天獲取的新的事件,根據(jù)事件的熵值和用戶數(shù)量對(duì)事件進(jìn)行排序,將列表前20的事件與之前的舊事件進(jìn)行合并。在合并之前,利用基于衰老理論的方法來得到需要合并的舊事件集合。本文同時(shí)分析了AP聚類算法在微博數(shù)據(jù)集上的結(jié)果。
為了驗(yàn)證算法效率的提升,本文通過在不同級(jí)別的數(shù)據(jù)集上對(duì)比傳統(tǒng)的SINGLE-PASS算法和基于倒排索引的改進(jìn)算法的處理時(shí)間,通過實(shí)
3、驗(yàn)對(duì)比得知,基于倒排索引改進(jìn)的算法能達(dá)到6-7倍的速度提升,性能遠(yuǎn)遠(yuǎn)高于傳統(tǒng)的文本聚類算法。由于實(shí)驗(yàn)沒有標(biāo)準(zhǔn)的語料集合,本文通過人工標(biāo)注的方式獲得了一個(gè)測(cè)試集合,測(cè)試集合包含26個(gè)事件,共計(jì)2817篇文檔。通過在測(cè)試集合上面的實(shí)驗(yàn)分析,本文提出的算法能夠獲得較好的精度。本文還對(duì)比了不同的權(quán)重計(jì)算方式在微博數(shù)據(jù)上面的結(jié)果。同時(shí)還對(duì)比了 AP聚類算法和SINGLE-PASS算法在微博數(shù)據(jù)集上的結(jié)果。
由于微博數(shù)據(jù)量比較大,文本聚類
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于微博的突發(fā)話題檢測(cè)研究.pdf
- 中文微博的話題檢測(cè)及微博預(yù)警.pdf
- 基于LDA模型的微博話題與事件檢測(cè).pdf
- 微博平臺(tái)的熱門話題檢測(cè).pdf
- 基于KL距離的微博突發(fā)話題檢測(cè)研究.pdf
- 基于語境分析的微博熱點(diǎn)話題檢測(cè)研究.pdf
- 基于主題模型的微博話題檢測(cè)與跟蹤研究.pdf
- 微博突發(fā)話題檢測(cè)方法研究.pdf
- 多視圖微博話題檢測(cè)方法研究.pdf
- 多視圖微博話題檢測(cè)方法研究
- 基于微博的熱點(diǎn)話題發(fā)現(xiàn).pdf
- 基于主題模型的微博話題發(fā)現(xiàn)與話題摘要.pdf
- 基于Labeled-LDA的微博趨勢(shì)話題檢測(cè)技術(shù)研究.pdf
- 基于文本內(nèi)容的微博突發(fā)話題檢測(cè)技術(shù)研究.pdf
- 微博數(shù)據(jù)提取及話題檢測(cè)方法研究.pdf
- 基于話題熱度的微博推薦算法研究.pdf
- 基于LDA的微博話題聚類研究.pdf
- 基于關(guān)系網(wǎng)絡(luò)的微博話題挖掘.pdf
- 基于lda的微博話題聚類研究
- 基于分區(qū)的倒排索引壓縮算法研究.pdf
評(píng)論
0/150
提交評(píng)論