基于社交網絡特定用戶群體發(fā)現(xiàn)系統(tǒng).pdf_第1頁
已閱讀1頁,還剩82頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、社交網絡的迅猛發(fā)展吸引了大批的用戶,使得互聯(lián)網成為了社會輿論的主要聚集地之一,近年來國內外各領域幾乎所有的重大事件都在微博上被廣泛討論。因此,社交網絡上的輿情分析已經成為一個熱門的研究課題。一些關鍵用戶在社交網絡輿論的形成和傳播過程中扮演著重要的角色,網絡輿情的發(fā)展方向已經與他們密不可分,他們被稱為“意見領袖”。意見領袖通常具有強大的影響力,領導著各自領域熱點、焦點問題的輿論走向。在進行網絡輿情分析時,若能夠發(fā)掘出社交網絡中的意見領袖,

2、并重點針對這些意見領袖采集和分析相關的數(shù)據,就可以有效地節(jié)約數(shù)據采集、存儲、計算的開銷,達到事半功倍的效果。
  為了發(fā)掘出社交網絡中的意見領袖,本文開發(fā)了基于社交網絡上特定用戶的群體發(fā)現(xiàn)系統(tǒng),該系統(tǒng)以初始的數(shù)個意見領袖作為輸入,發(fā)掘出社交網絡中的其他意見領袖群體,并能夠針對發(fā)掘出的意見領袖名單采集用戶的信息和用戶發(fā)表的消息。為了實現(xiàn)意見領袖名單的發(fā)掘功能,本系統(tǒng)實現(xiàn)了影響力分析算法和社區(qū)發(fā)現(xiàn)算法,并針對本系統(tǒng)的具體情況對社區(qū)發(fā)現(xiàn)

3、算法進行了改進,使得對于不完整的用戶關系圖也能夠得到較為準確的劃分結果。而數(shù)據采集部分,本文搭建了分布式的社交網絡爬蟲作為系統(tǒng)的數(shù)據采集模塊。該爬蟲通過調用社交網站提供的API和模擬瀏覽器兩種方式來協(xié)同實現(xiàn)數(shù)據的采集,能夠采集的數(shù)據有用戶信息、用戶好友關系、用戶發(fā)表的歷史消息以及用戶發(fā)表的實時消息四個部分。為了提高爬取的效率,數(shù)據采集模塊采用了分布式技術,讓多臺主機協(xié)同完成數(shù)據采集工作,并且每臺主機能夠定時切換IP和賬號,以突破各社交網

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論