版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、隨著中文微博平臺的快速發(fā)展,微博已經(jīng)融入并且開始影響人們的日常生活,微博上的很多觀點言論正在潛移默化地影響著人們的價值判斷。而人是言論傳播的主體,微博平臺的開放性使一個人在微博上可以對應多個虛擬身份,轉世賬號就是一類在網(wǎng)絡輿論監(jiān)測過程中出現(xiàn)的一個用戶對應多個賬號的情況,本文主要研究轉世賬號的研判問題。
轉世賬戶現(xiàn)象是在不同時間上同一微博平臺上存在的兩個或者多個賬號對應同一個用戶的現(xiàn)象。本文在調研了微博用戶研究所用信息來源的基礎
2、上,篩選出賬戶名、博文時間和內容三個具有高可信性的信息來源,作為研究的基礎數(shù)據(jù),接著提出了一種基于時序和相似性的轉世賬戶研判模型,論文主要包括以下四個研究貢獻:
?。?)由于受記憶、知識和時間及習慣等原因限制,同一用戶命名自己的不同賬戶時傾向于選擇相似賬戶名。本文通過研究轉世賬戶不同賬戶名的命名規(guī)則及賬戶名間的高相似性,利用相似性設計并實現(xiàn)了待查賬戶候選賬戶集產(chǎn)生算法。該算法將賬戶名中包含待查賬戶名任一中文字符的賬戶選入候選集,
3、在最大程度上保留了相似賬號。
(2)針對轉世賬戶的特殊性,提出了一種博文時序樹算法。由于轉世賬戶的前世賬戶與現(xiàn)世賬戶的博文一般在時間維度上有一個嚴格的先后順序,即現(xiàn)世賬戶的博文不早于前世賬戶的博文發(fā)表時間,并且其第一條博文的時間不會滯后于前世賬戶發(fā)表最后一條博文太長時間。借助這種時序關系對博文進行處理,最終形成一棵以待查賬戶為根,疑似前世賬戶為節(jié)點的時序樹,完成候選賬戶集的時序篩選驗證。
(3)研究文本相似度計算方法
4、,改進了余弦相似度計算方法。本文針對兩個應用改進了余弦相似度算法。首先對于賬戶名這種超短文本,其相似性不能僅依靠判斷所使用的字相同就認為其相似,故本文針對余弦相似度算法不能區(qū)別文本結構上的不同,通過加權最少編輯距離算法進行改進,取得了更好的研判效果;另外是對博文相似度,本文認為對于命名實體相同的微博文本,其談論的話題是相似的,因而本文將文本向量空間分為命名實體空間和其他特征項空間,并且加大了命名實體在特征向量里的權重,該算法可以推廣至基
5、于話題的相似性計算。
(4)基于以上算法,提出了一種基于時序和相似性的轉世賬戶研判模型,并在新浪數(shù)據(jù)上進行了有效性驗證。模型主要分為兩大模塊:候選賬戶集產(chǎn)生模塊(Identity Search)和篩選驗證模塊(Identity Matching)。前者使用候選賬戶集產(chǎn)生算法生成待查賬戶的候選賬戶集,盡可能避免漏掉可能的前世賬號;后者進行時序和相似性的篩選驗證,盡可能甄別刪除不是前世賬戶的賬戶。
本文在對模型設計的基礎
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 微博輿情生產(chǎn)、研判與處置研究
- 基于微博的社會輿情研判與預警體系構建
- 基于話題模型的教育領域微博賬號萃取.pdf
- 微博公眾賬號對輿論的引導性研究
- 微博公眾賬號對輿論的引導性研究
- 微博檢索技術研究與實現(xiàn).pdf
- 微信公眾賬號與個人賬號推廣
- 微博輿情挖掘技術的研究與應用.pdf
- 流聚類技術在微博中的應用.pdf
- 微博熱點發(fā)現(xiàn)技術的研究與實現(xiàn).pdf
- 認證類與草根類健康微博賬號信息傳播對比研究.pdf
- 微博用戶興趣識別技術的研究與應用.pdf
- 微博在微課程中的應用探討
- 微博僵尸粉識別技術研究與實現(xiàn).pdf
- 微博機器人檢測技術的研究與實現(xiàn).pdf
- 基于Android手機的新浪微博應用的研究與實現(xiàn).pdf
- 基于MapReduce的微博水軍識別技術研究與實現(xiàn).pdf
- 微博的大規(guī)模社區(qū)發(fā)現(xiàn)技術研究與實現(xiàn).pdf
- 話題區(qū)分的微博情感分析技術研究與實現(xiàn).pdf
- 面向新浪微博的水軍識別技術的研究與實現(xiàn).pdf
評論
0/150
提交評論