大規(guī)模社交網絡中局部興趣社區(qū)發(fā)現研究.pdf_第1頁
已閱讀1頁,還剩131頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著web2.0時代的到來,越來越多的數據呈現在互聯網上,更多的體現用戶在網絡上的互相交互。人們既生產大量網絡數據、又同時對其進行消費。人們的生產、生活、學習、娛樂也越來越離不開互聯網。社交網絡把現實中人與人之間的關系建立在互聯網上,加強人們之間的交流和互動,促進信息更快的在世界范圍內流動。隨著Facebook上市,社交網絡也越來越多的受到人們的關注。Facebook是一種強關系的社交網絡,用戶可以利用其進行朋友之間的關系的促進改善和維

2、護;微博Twitter是一種弱關系的社交網絡,在其上容易形成意見領袖和信息快速傳播,有利于社交網絡的廣告推廣和營銷;Linkedin是專注于商務人士拓展業(yè)務,求職招聘等進行商務交流的專業(yè)社交平臺。國內也有很多社交網絡如騰訊微博、嘀咕、9911、隨心微博、新浪微博、搜狐微博、Follow5、網易微博、品品米、MySpace聚友網、百度i貼、同學網、飯否等,其中比較知名的新浪微博比較類似于Twitter。
  截至2012年12月份,

3、國內知名社交網絡新浪微博用戶規(guī)模達到5億;時至2012年7月國外著名社交網絡Twitter用戶數量超過5億;另外一個世界知名社交網站FaceBook用戶數量達到10億以上。據國外知名數據公司PingDom的數據顯示,全球已有幾十億社交網絡用戶,同時社交網絡鏈接和網頁插件已經占據全世界所有網站的四分之一。對社交網絡進行分析,發(fā)現社交網絡中各種社區(qū)對于商品推薦、廣告推送、朋友推薦以及對社交網絡進行劃分具有十分重要的意義。
  本文在調

4、研分析大規(guī)模社交網絡發(fā)展和研究的基礎上,主要就如何有效挖掘社交網絡中興趣社區(qū)做了深入研究。本文先就其兩個子問題社交網絡中個性化興趣的建模和個性化PageRank高效計算進行研究。在完成興趣建模和個性化PageRank高效計算的基礎上,進行大規(guī)模社交網絡的興趣社區(qū)探測。
  首先,采用用戶好友關系信息、用戶發(fā)布和轉發(fā)微博信息作為興趣信息,針對普通用戶和特殊用戶的不同,分別提出以關注對象為興趣的三層模型和以發(fā)布微博為興趣的兩層模型的模

5、型表示方法。針對微博內容為興趣建模,提出基于LDA改進的微博興趣分類方法。針對用戶興趣改變的問題,提出基于用戶微博內容為反饋的貝葉斯方法,同時還提出基于興趣社區(qū)發(fā)現為目的的用戶興趣偏好模型。最后通過以用戶標簽作為參考對模型進行評估,得出模型在標簽較充足時能有80%以上的查準率和查全率。
  其次,個性化PageRank作為信息檢索和數據挖掘領域的重要算法,隨著數據規(guī)模的不斷增大,有必要對其進行優(yōu)化和加速。傳統(tǒng)迭代方法比較耗費時間和

6、空間,本文使用基于Monte Carlo隨機步方法。MapReduce適合數據密集型計算,不適合大量的迭代,本文提出基于MPI的分布式算法。改進先前的二路合并方法到基于Fibonacci的方法,從理論上性能有30%左右的提高,在大量真實數據的實驗上得出該方法相對基礎方法性能提高10%到40%。
  最后,由于社區(qū)結構信息包含成員關系連接信息和成員本身的個性化信息,提出考慮結構信息和節(jié)點自身屬性特征的基于個性化PageRank的社區(qū)

7、發(fā)現方法。針對日益發(fā)展的社交網絡的數據大規(guī)模性,提出局部的社區(qū)分析方法和將算法改進適應在分布式計算架構MapReduce之上。由于大部分社區(qū)探測方法不適合用在具有千萬級甚至更大用戶規(guī)模的社區(qū)分析,而Metis方法是少有的能處理如此大規(guī)模的網絡分析工具,本文將所提出的基于個性化PageRank方法與Metis方法進行比較,凸顯本文提出方法具有更好的社區(qū)探測能力,能找到聚簇性很強的局部社區(qū)。另外,本文通過MapReduce擴展實驗說明了方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論