基于主題分析的文本檢索方法研究.pdf_第1頁
已閱讀1頁,還剩64頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、得益于搜索引擎的推廣,我們可以隨時隨地從互聯網上獲取自己所需的信息。但是基于信息呈指數級的增長速度和人們對搜索結果的更高要求,使得搜索引擎的智能化和個性化成為目前迫切需要解決的問題。那么如何在浩瀚的知識海洋中快速、準確地查找自己想要的那部分信息已成為新時代檢索技術所面臨的挑戰(zhàn)。
  在傳統(tǒng)的信息檢索系統(tǒng)中,搜索引擎在描述用戶查詢與候選文檔之間的關系時,往往僅考慮了詞與詞之間的字面匹配,并沒有充分利用詞語之間語義表達上的關聯信息,這

2、使得搜索結果與用戶所需差距較大。
  本文從相關度出發(fā),先利用主題模型對文檔建模以抽取文檔的主題信息,然后利用主題信息計算查詢語句與候選文檔之間的相關度并根據相關度對文檔進行排序,最后將排序結果呈現給用戶。然而,在上述過程中,主題模型表現出了自身的不足,一是主題模型中主題k值的選擇過于隨機化,這有可能因為不恰當的k值選擇而使得主題與主題之間的區(qū)分度不夠明顯,造成主題之間的高重疊性;二是基于語料層的主題分布在某種程度上并不能完全代表

3、單篇文章的主題分布,這可能會造成文檔主題概率分布的高稀疏性,甚至會有損單篇文章的主題特征表示精度。基于以上兩點,本文第三章和第四章分別對模型進行改進,使其能夠最大程度地在信息檢索任務上發(fā)揮作用。
  本文第三章提出了一種基于詞向量主題模型的文本檢索方法,該方法的主題建模部分充分考慮了主題之間的重疊關系和Gibbs抽樣的初始過程。首先,利用詞向量優(yōu)秀的詞語語義表達能力對主題之間的關系進行刻畫,進而對主題模型中的k值進行再確定,使主題

4、之間保持相對獨立。另外,利用詞向量對詞進行聚合以改進Gibbs抽樣過程中的詞語的初始主題分配。然后,利用確定的k值,我們對語料進行主題建模,得出“文檔—主題”、“主題一詞”兩個多項式分布矩陣,進而對矩陣進行運算得到“詞”對“文檔”的表征關系,這種“表征關系”在本文中被稱為“貢獻度”。在詞語貢獻度的基礎上,我們可以把查詢語句和候選文檔集之間語義關系的緊密程度用“數值”描述出來。最后,通過這種“數值”關系對候選文檔進行排序,進而將排序結果顯

5、示在用戶查詢界面上。
  本文第四章提出了一種基于聚類主題模型的文本檢索方法,該方法是在第三章的基礎上對主題建模方法和排序方法做出更進一步的改進。對于主題建模方法,基于傳統(tǒng)主題模型在信息檢索任務上的不理想表現,我們通過分析得出,對語料層上的主題建模在一定程度上造成了單篇文章主題分布的稀疏性并損失了主題在單篇文檔中的特征表達精度,這就影響了單篇文檔主題的真實概率分布?;谝陨戏治?,我們在文本建模前先對文檔集聚類,使主題相同或相近的文

6、檔集合盡可能聚集在一起,然后依次對聚類簇進行主題建模,充分發(fā)揮主題模型在信息檢索任務上的建模能力。對于排序方法,在詞語相關度計算方面,我們采用互動百科知識庫對詞語之間的相關度計算進行改進,使它們之間的語義關系變得更準確。
  本文實驗所采用的語料庫是NTCIR-5(NACSIS Test Collections for IR),實驗后利用TREC信息檢索評測工具進行相關指標的測評。從實驗結果可以看出,文中提出的基于詞向量主題模型的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論