版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、為了提高用戶檢索的精度,將更加相關有效的頁面返回給查詢用戶,如何提高搜索引擎排序的質量就顯得至關重要??紤]對檢索模型有影響的因素時,我們考慮到網頁的重要度和相關度是兩個重要的特征;但是只有重要度和相關度也不夠,還要考慮其他的一些因素,比如網頁之間相似性。隨著搜索技術的發(fā)展和對搜索進行的研究,我們發(fā)現(xiàn)有太多的因素會影響到排序,把這些因素視作特征用一些方法綜合考慮得出一個最合理的排序,這就是當今搜索引擎排序研究領域中引入機器學習的方法所要解
2、決的問題,也即排序學習所要研究解決的問題。
由于本課題是在網頁上進行的排序研究,而網頁是經過特殊格式化了的文本,所以我們的研究主要集中在對文本排序的研究之上。
本課題介紹了現(xiàn)有的八種文本特征提取方法,提出了帶有位置信息的TFIDF,并且結合全局信息熵,這樣一個新的特征提取方法(WTE)。我們提出的特征提取方法由于結合了位置權重和信息熵,使得提取的特征詞能夠更好的代表一篇文本,又能最大限度的與其他文本相區(qū)分。重要的是,
3、這個方法能最佳的表示詞在文章中的重要度和相關性。同時,我們提出一種適用于列表級排序學習方法上的基準排序序列的構建方法,彌補了在列表級排序學習方法的研究上,基準序列不足的缺陷。
本課題在建立排序模型的時候提出了結合文本內容與查詢的相關性和文本之間的相似性關系應用在列表級排序學習模型上的排序方法。大多數(shù)的排序學習方法在建立排序模型的時候都只考慮了文本內容與查詢的相關性,而忽略了文本之間的相似性關系對排序可能給予的貢獻。為了解決這個
4、問題,本課題將文本之間的相似性關系表示成了一個相似性圖(AA),結合AA表示的文本之間的潛在關系以及文本本身內容與查詢的關系構建排序模型,引入監(jiān)督學習的方法優(yōu)化排序模型。對于文本的相關度函數(shù)的構建不僅僅依賴于文本本身內容而且也依賴于文本之間的相似性關系,這是本文的研究重點。
本課題在學習模型的構建上利用交叉熵和似然估計作為替代損失函數(shù),利用增量型線性神經網絡和梯度下降算法來最小化本文定義的損失函數(shù)。本課題實現(xiàn)并分析了在上述兩種
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于DEA的列表型排序學習方法研究.pdf
- 基于gpu的并行排序學習算法研究
- 基于GPU的并行排序學習算法研究.pdf
- 基于遷移學習的跨領域排序學習算法研究.pdf
- 基于稀疏表示的排序學習算法.pdf
- 基于RankBoost的排序函數(shù)學習算法研究.pdf
- 基于排序學習的商品搜索算法研究.pdf
- LambdaXGB排序學習算法研究.pdf
- 網頁學習排序算法研究.pdf
- 基于B細胞算法的排序學習方法研究.pdf
- 基于神經網絡的網頁排序學習算法研究.pdf
- 半監(jiān)督排序學習算法研究.pdf
- 基于克隆選擇算法的排序學習方法研究.pdf
- 基于神經網絡的網頁排序學習算法研究(1)
- 基于機器學習的文本分類算法研究.pdf
- 基于多模態(tài)監(jiān)督學習的圖像重排序算法研究.pdf
- 基于排序學習和卷積神經網絡的推薦算法研究.pdf
- 基于直接優(yōu)化信息檢索評價方法的排序學習算法研究.pdf
- 大規(guī)模并行排序學習算法研究.pdf
- 基于鏈接分析的網頁排序及相關Link Spam算法的研究.pdf
評論
0/150
提交評論