推特數(shù)據(jù)信息的查詢擴(kuò)展方法研究.pdf_第1頁
已閱讀1頁,還剩76頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著互聯(lián)網(wǎng)的迅猛發(fā)展,在全球各地每時每刻都在產(chǎn)生大量的推特數(shù)據(jù)信息。如何在這大量數(shù)據(jù)中去篩選滿足用戶需求的信息變得尤為重要,查詢擴(kuò)展方法在推文檢索中廣泛應(yīng)用,可以有效的解決這一問題。
  查詢擴(kuò)展主要包含兩個部分:一是篩選與原始查詢詞相關(guān)的推文作為語料庫;二是篩選語料庫中與原始查詢最相關(guān)的詞語作為待擴(kuò)展詞。傳統(tǒng)查詢擴(kuò)展方法主要使用BM25算法,VSM算法以及TF-IDF算法等對原始查詢和推文進(jìn)行相關(guān)性比較,篩選出滿足用戶需求的推文

2、作為語料庫。這種方法存在兩個不足:一是含有較少查詢詞的推文被漏選,二是含有較多查詢詞的不相關(guān)推文被錯誤的篩選。針對此問題本文在以下幾個方面進(jìn)行研究和創(chuàng)新:
  (1)提出基于推文聚類的查詢擴(kuò)展方法,并對其進(jìn)行設(shè)計和完成。該方法對篩選推文作為語料庫這一過程進(jìn)行改進(jìn),并將傳統(tǒng)的逐條推文與原始查詢詞進(jìn)行相關(guān)性比較的推文篩選方法進(jìn)行優(yōu)化。該方法先對推文進(jìn)行聚類,根據(jù)與原始查詢詞的相關(guān)性對聚好類的推文進(jìn)行篩選,得到的推文集合包含了相同語義的

3、所有推文。再比較推文類與原始查詢的相關(guān)性,篩選出最滿足用戶需求的推文類。這一方法很好的解決了含有較少查詢詞的相關(guān)推文被漏選的問題。
  該方法對比BM25算法對兩種不同的查詢擴(kuò)展方法在平均準(zhǔn)確率(mAP)上分別提升了11.4%和12.0%,比VSM算法分別提升了14.9%和15.3%,比TF-IDF算法分別提升了15.8%和13.7%。
  (2)提出基于主題劃分的查詢擴(kuò)展方法。通過對不相關(guān)推文中含有較多查詢詞而被篩選這一主

4、題偏移問題進(jìn)行改進(jìn),使得含有查詢詞的不相關(guān)推文被有效的過濾。該方法將推文進(jìn)行主題劃分,篩選出滿足用戶查詢的主題下的推文集合作為語料庫,有效的去除了含有查詢詞但并不屬于該主題的推文。
  該方法對比BM25算法對兩種不同的查詢擴(kuò)展方法在平均準(zhǔn)確率(mAP)上分別提升了13.2%和13.9%,比VSM算法分別提升了16.7%和17.3%,比TF-IDF算法分別提升了17.7%和15.6%。
  (3)經(jīng)過分別對主題劃分方法和推文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論