微博信息檢索系統(tǒng)研究與開發(fā).pdf_第1頁
已閱讀1頁,還剩51頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,網(wǎng)絡(luò)媒體正日益成為當今社會人們獲取資訊的重要方式之一。這其中,微博自誕生之日起,就以其便捷性和實時性越來越受到網(wǎng)民的重視。每時每刻都有大量的微博消息被發(fā)布出來,如何處理這些海量數(shù)據(jù),成為現(xiàn)代工業(yè)界和學術(shù)界的研究重點。
  微博網(wǎng)絡(luò)中人與人的關(guān)系和現(xiàn)實世界中關(guān)系類似,會形成一個個類似的社區(qū)結(jié)構(gòu)。在一定的時間段內(nèi),社區(qū)內(nèi)部人與人之間聯(lián)系密切,用戶之間會有共同的興趣。通過發(fā)現(xiàn)社區(qū)的興趣得到社區(qū)關(guān)鍵詞,可以得到與關(guān)鍵詞

2、相關(guān)的微博用戶。通過發(fā)現(xiàn)用戶的興趣,可以得到與用戶興趣相同的其他用戶和其感興趣的微博內(nèi)容。
  本文提出新的算法來發(fā)現(xiàn)微博網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),結(jié)合微博社區(qū)興趣模型和微博用戶興趣模型,可以查詢與關(guān)鍵詞相關(guān)的微博用戶和推薦興趣相同的其他用戶及感興趣的微博內(nèi)容。通過計算與其他用戶興趣模型概率分布的相似程度來得到興趣相同的用戶;通過計算微博用戶的興趣模型概率分布與微博的主題模型分布之間的相似程度來得到用戶可能感興趣的微博內(nèi)容。本文利用Luc

3、ene對微博內(nèi)容進行建索引,在查詢擴展的基礎(chǔ)之上,可以收到更好的檢索效果。
  本文主要做了以下幾方面的工作:
  1、提出一種新的微博社區(qū)發(fā)現(xiàn)算法Label-Influence-Algorithm(LIA)。LIA算法考慮到社交網(wǎng)絡(luò)中人與人之間的關(guān)系,即一個人的朋友中大多數(shù)屬于一個社區(qū),自己也很大概率屬于這個社區(qū),同時借鑒社會學的研究成果,在發(fā)現(xiàn)微博社區(qū)時考慮到微博用戶的影響力。微博中用戶的粉絲數(shù)目并不能客觀反映用戶的影響

4、力,還需要考慮關(guān)注數(shù)目、評論數(shù)和被提到的數(shù)量等,重點需要考慮如何排除“僵尸粉”(即主要是由機器來運營單純只是為了增加粉絲的數(shù)量)。
  2、微博社區(qū)用戶興趣模型建模。由于微博消息限定為140個字,屬于典型的短文本內(nèi)容,所以單純的對每條微博進行主題發(fā)現(xiàn)效果很差,而且也沒有多大的實際意義。在一定的時間段內(nèi),微博用戶的興趣相對固定,而社區(qū)內(nèi)的用戶也具有相對固定的話題,由此可以發(fā)現(xiàn)微博用戶的興趣模型,并由此得到與用戶興趣相同的用戶和其感興

5、趣的微博內(nèi)容。對于每個微博用戶,利用其所發(fā)表和轉(zhuǎn)發(fā)微博的主題模型來表示其興趣模型;對于每個社區(qū),利用其社區(qū)成員所發(fā)表和轉(zhuǎn)發(fā)微博的主題模型來表示其興趣模型。
  3、構(gòu)建微博信息檢索系統(tǒng)。本系統(tǒng)主要有查詢功能和推薦功能:在查詢功能中,用戶輸入檢索詞,在經(jīng)過查詢擴展之后得到擴展詞集,會得到與擴展詞集相關(guān)的微博內(nèi)容和微博用戶;在推薦功能中,用戶輸入微博昵稱,通過計算該昵稱的微博用戶興趣模型概率分布與其他分布和社區(qū)內(nèi)微博主題分布的相似程度

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論