

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著中文微博平臺(tái)的快速發(fā)展,微博已經(jīng)融入并且開始影響人們的日常生活,微博上的很多觀點(diǎn)言論正在潛移默化地影響著人們的價(jià)值判斷。而人是言論傳播的主體,微博平臺(tái)的開放性使一個(gè)人在微博上可以對(duì)應(yīng)多個(gè)虛擬身份,轉(zhuǎn)世賬號(hào)就是一類在網(wǎng)絡(luò)輿論監(jiān)測過程中出現(xiàn)的一個(gè)用戶對(duì)應(yīng)多個(gè)賬號(hào)的情況,本文主要研究轉(zhuǎn)世賬號(hào)的研判問題。
轉(zhuǎn)世賬戶現(xiàn)象是在不同時(shí)間上同一微博平臺(tái)上存在的兩個(gè)或者多個(gè)賬號(hào)對(duì)應(yīng)同一個(gè)用戶的現(xiàn)象。本文在調(diào)研了微博用戶研究所用信息來源的基礎(chǔ)
2、上,篩選出賬戶名、博文時(shí)間和內(nèi)容三個(gè)具有高可信性的信息來源,作為研究的基礎(chǔ)數(shù)據(jù),接著提出了一種基于時(shí)序和相似性的轉(zhuǎn)世賬戶研判模型,論文主要包括以下四個(gè)研究貢獻(xiàn):
(1)由于受記憶、知識(shí)和時(shí)間及習(xí)慣等原因限制,同一用戶命名自己的不同賬戶時(shí)傾向于選擇相似賬戶名。本文通過研究轉(zhuǎn)世賬戶不同賬戶名的命名規(guī)則及賬戶名間的高相似性,利用相似性設(shè)計(jì)并實(shí)現(xiàn)了待查賬戶候選賬戶集產(chǎn)生算法。該算法將賬戶名中包含待查賬戶名任一中文字符的賬戶選入候選集,
3、在最大程度上保留了相似賬號(hào)。
(2)針對(duì)轉(zhuǎn)世賬戶的特殊性,提出了一種博文時(shí)序樹算法。由于轉(zhuǎn)世賬戶的前世賬戶與現(xiàn)世賬戶的博文一般在時(shí)間維度上有一個(gè)嚴(yán)格的先后順序,即現(xiàn)世賬戶的博文不早于前世賬戶的博文發(fā)表時(shí)間,并且其第一條博文的時(shí)間不會(huì)滯后于前世賬戶發(fā)表最后一條博文太長時(shí)間。借助這種時(shí)序關(guān)系對(duì)博文進(jìn)行處理,最終形成一棵以待查賬戶為根,疑似前世賬戶為節(jié)點(diǎn)的時(shí)序樹,完成候選賬戶集的時(shí)序篩選驗(yàn)證。
?。?)研究文本相似度計(jì)算方法
4、,改進(jìn)了余弦相似度計(jì)算方法。本文針對(duì)兩個(gè)應(yīng)用改進(jìn)了余弦相似度算法。首先對(duì)于賬戶名這種超短文本,其相似性不能僅依靠判斷所使用的字相同就認(rèn)為其相似,故本文針對(duì)余弦相似度算法不能區(qū)別文本結(jié)構(gòu)上的不同,通過加權(quán)最少編輯距離算法進(jìn)行改進(jìn),取得了更好的研判效果;另外是對(duì)博文相似度,本文認(rèn)為對(duì)于命名實(shí)體相同的微博文本,其談?wù)摰脑掝}是相似的,因而本文將文本向量空間分為命名實(shí)體空間和其他特征項(xiàng)空間,并且加大了命名實(shí)體在特征向量里的權(quán)重,該算法可以推廣至基
5、于話題的相似性計(jì)算。
?。?)基于以上算法,提出了一種基于時(shí)序和相似性的轉(zhuǎn)世賬戶研判模型,并在新浪數(shù)據(jù)上進(jìn)行了有效性驗(yàn)證。模型主要分為兩大模塊:候選賬戶集產(chǎn)生模塊(Identity Search)和篩選驗(yàn)證模塊(Identity Matching)。前者使用候選賬戶集產(chǎn)生算法生成待查賬戶的候選賬戶集,盡可能避免漏掉可能的前世賬號(hào);后者進(jìn)行時(shí)序和相似性的篩選驗(yàn)證,盡可能甄別刪除不是前世賬戶的賬戶。
本文在對(duì)模型設(shè)計(jì)的基礎(chǔ)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 微博輿情生產(chǎn)、研判與處置研究
- 基于微博的社會(huì)輿情研判與預(yù)警體系構(gòu)建
- 基于話題模型的教育領(lǐng)域微博賬號(hào)萃取.pdf
- 微博公眾賬號(hào)對(duì)輿論的引導(dǎo)性研究
- 微博公眾賬號(hào)對(duì)輿論的引導(dǎo)性研究
- 微博檢索技術(shù)研究與實(shí)現(xiàn).pdf
- 微信公眾賬號(hào)與個(gè)人賬號(hào)推廣
- 微博輿情挖掘技術(shù)的研究與應(yīng)用.pdf
- 流聚類技術(shù)在微博中的應(yīng)用.pdf
- 微博熱點(diǎn)發(fā)現(xiàn)技術(shù)的研究與實(shí)現(xiàn).pdf
- 認(rèn)證類與草根類健康微博賬號(hào)信息傳播對(duì)比研究.pdf
- 微博用戶興趣識(shí)別技術(shù)的研究與應(yīng)用.pdf
- 微博在微課程中的應(yīng)用探討
- 微博僵尸粉識(shí)別技術(shù)研究與實(shí)現(xiàn).pdf
- 微博機(jī)器人檢測技術(shù)的研究與實(shí)現(xiàn).pdf
- 基于Android手機(jī)的新浪微博應(yīng)用的研究與實(shí)現(xiàn).pdf
- 基于MapReduce的微博水軍識(shí)別技術(shù)研究與實(shí)現(xiàn).pdf
- 微博的大規(guī)模社區(qū)發(fā)現(xiàn)技術(shù)研究與實(shí)現(xiàn).pdf
- 話題區(qū)分的微博情感分析技術(shù)研究與實(shí)現(xiàn).pdf
- 面向新浪微博的水軍識(shí)別技術(shù)的研究與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論