版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、自2007年以來(lái),微博這種通訊形式風(fēng)靡全球。微博具有上手門(mén)檻低、交流及時(shí)、發(fā)布便捷等優(yōu)勢(shì),在全球得以普及和發(fā)展。近年來(lái)微博的發(fā)展態(tài)勢(shì)強(qiáng)勁,已成為人們生活中不可或缺的一部分。在國(guó)內(nèi),網(wǎng)民的微博用戶(hù)數(shù)量激增,每日發(fā)布的博文條數(shù)多達(dá)上億條,產(chǎn)生了大量的微博數(shù)據(jù)。大多數(shù)的微博內(nèi)容隨意,評(píng)論較多且口語(yǔ)化嚴(yán)重。如何在浩如煙海各型各色的微博數(shù)據(jù)中找到符合個(gè)人興趣并能夠提供有效信息的微博數(shù)據(jù),成為了伴隨著微博發(fā)展帶來(lái)的一個(gè)巨大的問(wèn)題。
本文以
2、新浪微博為數(shù)據(jù)來(lái)源,以個(gè)人微博一個(gè)歷史時(shí)間段內(nèi)所發(fā)表的所有微博數(shù)據(jù)為單位進(jìn)行研究。經(jīng)過(guò)對(duì)自動(dòng)文摘技術(shù)與微博數(shù)據(jù)特點(diǎn)的研究,并且結(jié)合文本表示、聚類(lèi)算法等主題進(jìn)行了探討,設(shè)計(jì)且實(shí)現(xiàn)了一個(gè)從獲取數(shù)據(jù)到數(shù)據(jù)處理到最終自動(dòng)摘要形成的完整系統(tǒng)。這個(gè)過(guò)程中主要經(jīng)歷了以下步驟:獲取數(shù)據(jù)、對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、文本表示、特征選擇、相似度計(jì)算改進(jìn)、聚類(lèi)算法改進(jìn)及算法實(shí)現(xiàn)和形成綜合自動(dòng)摘要。本論文主要工作有:
首先,通過(guò)新浪微博開(kāi)放平臺(tái)獲取微博原始數(shù)據(jù)
3、。
其次,對(duì)微博數(shù)據(jù)進(jìn)行分析研究,結(jié)合私人微博文本特點(diǎn)把微博數(shù)據(jù)與評(píng)論內(nèi)容合并成偽文檔進(jìn)行分詞等一系列預(yù)處理工作。接下來(lái),將分詞后的文本轉(zhuǎn)化成數(shù)據(jù)格式。文本模型把數(shù)據(jù)從文本形式轉(zhuǎn)化成了數(shù)學(xué)的表示,反映了數(shù)據(jù)之間的關(guān)系,并在此基礎(chǔ)上采用文本相似度的計(jì)算方法。
然后,聚類(lèi)算法采用了K-means聚類(lèi)算法。K值的指定一直都是K-means聚類(lèi)算法的最大的問(wèn)題,通常需要通過(guò)經(jīng)驗(yàn)進(jìn)行判斷。中心點(diǎn)的選取也是一個(gè)較大的問(wèn)題,通常中
4、心點(diǎn)最好具有代表性,選取不同中心點(diǎn)的位置對(duì)算法結(jié)果的準(zhǔn)確性也有較大影響。我們對(duì)此進(jìn)行了改進(jìn),使得改進(jìn)后的算法能夠自適應(yīng)地獲取K的值,并選取中心點(diǎn)。
最后,根據(jù)微博的內(nèi)容時(shí)效性和流行度,確定聚類(lèi)簇中各個(gè)微博的權(quán)重,先得到每個(gè)聚類(lèi)中的摘要,最終結(jié)合各個(gè)聚類(lèi)簇形成最終針對(duì)私人微博的摘要。論文的最后通過(guò)實(shí)驗(yàn)驗(yàn)證,對(duì)論文提出的聚類(lèi)算法改進(jìn)進(jìn)行了分析和實(shí)驗(yàn)。相比于原先的算法準(zhǔn)確率和適用性有所提高。通過(guò)整個(gè)系統(tǒng)開(kāi)發(fā)實(shí)現(xiàn)了私人微博摘要的形成。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 微博事件自動(dòng)摘要研究.pdf
- 面向微博應(yīng)用的新聞文本自動(dòng)摘要研究.pdf
- 地理相關(guān)微博流自動(dòng)摘要技術(shù)研究.pdf
- 微博輿論的形成、演變及控制研究.pdf
- 我國(guó)微博“意見(jiàn)領(lǐng)袖”形成及輿論影響研究——以新浪微博為例.pdf
- 基于智能體建模的微博輿論形成研究.pdf
- 微博自動(dòng)分類(lèi)方法研究及應(yīng)用.pdf
- 我國(guó)微博“意見(jiàn)領(lǐng)袖”形成及輿論影響研究——以新浪微博為例
- 微博對(duì)話(huà)的自動(dòng)回復(fù)生成.pdf
- 問(wèn)題微博的自動(dòng)識(shí)別技術(shù)研究.pdf
- 官方微博的事件提取及其摘要技術(shù)研究.pdf
- 微博事件的圖文摘要生成方法研究.pdf
- 面向微博的觀(guān)點(diǎn)摘要關(guān)鍵技術(shù)研究.pdf
- 基于粒度與內(nèi)容質(zhì)量的個(gè)人微博摘要研究.pdf
- 基于異構(gòu)網(wǎng)絡(luò)的微博新聞事件自動(dòng)檢測(cè)與摘要算法研究與實(shí)現(xiàn).pdf
- 基于粒度與內(nèi)容質(zhì)量的個(gè)人微博摘要研究
- 我國(guó)微博輿論的形成過(guò)程與政府引導(dǎo)方略研究
- 面向微博的群體情感摘要關(guān)鍵技術(shù)研究.pdf
- 微博參與下的集體行動(dòng)形成與消解機(jī)制研究.pdf
- 面向微博用戶(hù)的標(biāo)簽自動(dòng)生成技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論