基于URL及上下文的主題網絡爬蟲研究.pdf_第1頁
已閱讀1頁,還剩52頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著計算機的發(fā)展,互聯網已經成為世界上最大的信息資源庫,通用搜索引擎如百度瀏覽器、谷歌瀏覽器等可以通過關鍵詞查詢返回大量與關鍵詞相關的結果,能夠滿足大部分用戶的查詢需求。但是對于少數用戶,他們僅僅對某一個行業(yè)或領域的信息感興趣,所以他們希望搜索引擎僅僅返回自己感興趣的信息。為了獲得與某一個行業(yè)或者領域有關的信息,利用主題爬蟲算法對通用搜索引擎進行改進。
  論文中應用實體分析、網絡結構分析并加以算法上的改進,提出了基于URL及上下

2、文的主題爬蟲算法,本算法對主題進行了實體分析,根據中文同義詞詞庫將主題描述詞進行擴展,作為主題相關度分析算法的輸入。同時本算法將網頁分成若干個信息塊,在網絡結構與文本內容兩個方面分析每個信息塊中的鏈接及本文內容,根據信息塊中主題描述詞的詞頻和權重信息得出該鏈接在文本內容方面的評分。如果評分大于設定的閾值,則將該鏈接認為是與主題相關的,否則與主題不相關。實驗結果充分說明本論文提出的基于URL及上下文的主題爬蟲可以實現很好的搜索效果。

3、>  本文主要包括以下幾個研究內容:
  1.在查詢時,為了提高查詢速度使用高性能的全文檢索工具Lucene.Net,將網頁內容中的鏈接、錨文本、上下文信息等內容創(chuàng)建索引,實現索引搜索。創(chuàng)建索引雖然會消耗一定的時間,但是創(chuàng)建索引通常在后臺進行,而且索引創(chuàng)建之后可以重復利用,具有一勞永逸的作用。
  2.本文在實現中文分詞時,通過比較Lucene.Net提供的各種分詞方法和盤古中文分詞,最終選擇使用盤古分詞。為了實現良好的分詞

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論