信息檢索中虛擬域重排技術(shù)的研究與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著Web技術(shù)的發(fā)展,人們對于信息的需求也與日俱增。用戶希望獲得信息的渠道和方式更加便捷和高效,尤其是在搜索信息時,期望所需求的信息盡量排在前邊,這便是SEO(Search Engine Optimization,搜索引擎優(yōu)化)問題。
  檢索結(jié)果重排序技術(shù)的研究是SEO課題一個重要的分支,且該技術(shù)的研究也趨于多樣化。近幾年在查詢擴展中提出了虛擬域概念,取得了很好的效果,構(gòu)成虛擬域的方法有許多種,但由于計算虛擬域的工作量巨大,一般

2、只能使用一種方法進行查詢擴展,不能同時綜合使用幾種方法,有一定的局限性。本文提出一種新的重排序模型,將虛擬域概念應(yīng)用于重排方法,重排只針對初次檢索結(jié)果若干文檔進行,綜合運用多種虛擬域提高了重排性能。
  基于虛擬域的重排模型,是用多種查詢詞運算構(gòu)成多個虛擬域,通過線性插入法綜合多個虛擬域計算待排序文檔(初次檢索結(jié)果前k個文檔)與查詢的新的相關(guān)度,依據(jù)相關(guān)度給出新的排序。根據(jù)查詢詞運算符or、and、gram和phrasal設(shè)計和實

3、現(xiàn)了查詢詞映射和構(gòu)建虛擬域的算法。相關(guān)度的計算是基于傳統(tǒng)的BM25,在其基礎(chǔ)上實現(xiàn)了虛擬域重排模型。研究分析了or、or-and、or-gram、or-and-gram、or-and-gram-phrasal等5種組合的虛擬域計算方法對重排序的影響,結(jié)合已有的經(jīng)驗,通過大量的實驗優(yōu)化了模型中各個參數(shù)。本文創(chuàng)新之處在于結(jié)合多種運算來計算虛擬域,突破了原來單一運算符的局限,這種方法得到的文檔與查詢的相關(guān)度更為準(zhǔn)確。在多個TREC集上進行了實

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論