2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩68頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著微博逐漸進(jìn)入人們的日常生活,越來越多的人喜歡在微博上分享信息、了解熱門話題、在微博平臺上找到自己感興趣的用戶并進(jìn)行互動,因此對微博用戶進(jìn)行分析也越來越受到研究者的關(guān)注。目前的微博檢索引擎為廣大微博用戶實(shí)現(xiàn)了按照主題領(lǐng)域(關(guān)鍵詞)查找名人的功能,但是這個功能往往只是將具有微博平臺服務(wù)認(rèn)證的用戶排在前面,然而很多具有微博平臺服務(wù)認(rèn)證的用戶并沒有在微博上發(fā)表所屬主題領(lǐng)域相關(guān)的微博。本文提出對主題領(lǐng)域用戶的特征進(jìn)行分析,采用排序算法計(jì)算主題

2、領(lǐng)域用戶的影響力,從而提高檢索質(zhì)量。本文的研究能夠有效地選取出優(yōu)化的特征組合去識別主題領(lǐng)域?qū)<摇TO(shè)計(jì)排序方法的實(shí)驗(yàn)數(shù)據(jù)來自中國新浪微博IT主題領(lǐng)域1200名微博用戶,這些主題領(lǐng)域用戶的數(shù)據(jù)包括非文本特征以及280733條微博內(nèi)容。首先,本文對提取的微博數(shù)據(jù)進(jìn)行了預(yù)處理,介紹了基于非文本特征去衡量主題領(lǐng)域用戶的影響力,提出三種方法對非文本特征進(jìn)行分析,進(jìn)而判別主題領(lǐng)域?qū)<摇?shí)驗(yàn)結(jié)果表明,基于非文本特征分析主題領(lǐng)域?qū)<沂强尚械?,?zhǔn)確率比傳統(tǒng)

3、的判別方法高。接下來本文對主題領(lǐng)域用戶的微博文本特征進(jìn)行分析,介紹了兩種計(jì)算微博內(nèi)容相似度的方法 — Jaccard相似度方法和Cosine相似度方法。通過兩種相似度計(jì)算方法對主題領(lǐng)域用戶的微博內(nèi)容進(jìn)行了相似度計(jì)算。將兩種相似度計(jì)算方法得到的準(zhǔn)確率與基于非文本特征的排序方法得到的準(zhǔn)確率進(jìn)行了比較,對比結(jié)果表明基于文本特征的方法比基于非文本特征的方法的準(zhǔn)確率高。最后本文提出將非文本特征和文本特征進(jìn)行融合,設(shè)計(jì)了三種排序算法 —融合排序方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論