微博大數(shù)據(jù)文本分析方法及推薦服務(wù).pdf_第1頁
已閱讀1頁,還剩63頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、微博,即微博客(MicroBlog)的簡稱,是一個基于用戶關(guān)系的信息分享、傳播以及獲取的平臺。用戶可以通過WEB、WAP以及各種客戶端組件個人社區(qū),以140字左右的文字更新信息,并實現(xiàn)即時分享。微博比傳統(tǒng)的社交網(wǎng)絡(luò)具有更強的信息傳播能力和用戶粘性,這一獨特優(yōu)勢使其迅速成為當(dāng)前主要社會媒體之一。同時微博作為一種非常重要的消息來源與傳播途徑,在越來越多的社會事件中起到關(guān)鍵作用。對微博數(shù)據(jù)的分析與研究已經(jīng)成為目前的研究熱點之一。本文以新浪微博

2、數(shù)據(jù)作為研對象,主要對新浪微話題數(shù)據(jù)進(jìn)行文本處理,分析其媒體特征及其對傳統(tǒng)搜索查詢詞推薦服務(wù)的優(yōu)化,并討論大數(shù)據(jù)環(huán)境下處理效率的問題。
  本文的主要工作包括以下四個方面:1)針對新浪微話題數(shù)據(jù)的抽取,我們采用了基于Html頁面解析的方式來獲取數(shù)據(jù),解決新浪API數(shù)據(jù)獲取接口不完全開放,數(shù)據(jù)無法完整獲取的問題;2)提出用戶參與度和用戶活躍度,話題熱度和話題活躍度這四個指標(biāo),實現(xiàn)新浪微話題的媒體特征分析。并重點討論了其話題特征,給出

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論