版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、近年來互聯(lián)網(wǎng)不斷高速的發(fā)展,網(wǎng)絡(luò)上的信息越來越繁雜。光靠用戶自己定位尋找信息已經(jīng)越來越不可行,用戶對信息搜索的需求越來越大。而目前通用搜索引擎提供給用戶的搜索結(jié)果往往摻雜了很多的不必要信息,用戶開始尋求更準確的搜索專項內(nèi)容的搜索引擎。所以對專項搜索引擎技術(shù)的研究顯得很有必要。
本文分析了搜索引擎的主要組成模塊和實現(xiàn)的基本步驟,介紹了一些在搭建搜索引擎時需要的背景知識。將構(gòu)建專項搜索引擎拆分為數(shù)據(jù)搜集處理和數(shù)據(jù)搜索這兩個主要的處
2、理模塊。結(jié)合Heritrix的源代碼和架構(gòu),研究并實現(xiàn)了數(shù)據(jù)搜集模塊,包括url的解析和分配、多線程機制的實現(xiàn)等。對Heritrix在面向?qū)m梼?nèi)容進行搜索時的不足之處進行了原因分析,提出了具體改進的方法。解決了包括僅針對專項網(wǎng)頁內(nèi)容進行url解析,針對爬蟲多線程機制在單一網(wǎng)站搜集時失效等多個問題。并給出了利用正則表達式對搜集完的數(shù)據(jù)信息進行預(yù)處理的方法。結(jié)合Lucene信息檢索工具包的源代碼分析,實現(xiàn)了數(shù)據(jù)搜索模塊。并根據(jù)專項搜索的需求
3、,定制了專門對返回的搜索結(jié)果進行進一步排序和過濾的機制。針對Lucene工具包對中文的支持度不夠,在對查詢語句的關(guān)鍵詞劃分時,增加了一些對中文語言的優(yōu)化支持。在分析實現(xiàn)的過程中結(jié)合了具體的編程語言機制,說明了在該語言下實現(xiàn)時的一些注意事項。
最后示范了一個對某一網(wǎng)站中散文類別的文章進行專項搜集和對其搜索的主題搜索引擎的實現(xiàn)方法。針對主題搜索引擎的主要功能點進行了相關(guān)的測試驗證,并在最后根據(jù)其它的搜索查找原理對搜索結(jié)果進行了驗證
4、。從最后的搜索的結(jié)果來看,準確取得了預(yù)期的搜索結(jié)果。并在數(shù)據(jù)搜集階段充分利用了多線程機制提升了搜集速度。
在研究過程中,也存在一些不足和缺陷。比如沒有采用分布式的機制去實現(xiàn)搜索。對搜索引擎的用戶界面沒有優(yōu)化,對用戶不夠友好。后續(xù)會考慮采用Solr和DWR技術(shù)來實現(xiàn)一個友好的用戶交互界面。DWR是一個Ajax封裝框架。可以較方便的實現(xiàn)在瀏覽器交互。本主題搜索引擎在對中文分詞的過程中并沒有采取比較好的詞典分詞方法。因為采用詞典分詞
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于Lucene和Heritrix構(gòu)建搜索引擎的研究和示例實現(xiàn).pdf
- 基于Heritrix和Lucene構(gòu)建的垂直搜索引擎的研究與實現(xiàn).pdf
- 基于lucene的主題搜索引擎研究
- 基于LUCENE的主題搜索引擎研究與實現(xiàn).pdf
- 基于Lucene小型搜索引擎的研究與實現(xiàn).pdf
- 基于Lucene的主題搜索引擎研究.pdf
- 畢業(yè)設(shè)計論文--基于lucene與heritrix的搜索引擎構(gòu)建
- 基于lucene的web搜索引擎實現(xiàn)
- 基于lucene的搜索引擎.pdf
- 基于LUCENE的搜索引擎研究與實現(xiàn).pdf
- 基于Lucene的Web搜索引擎實現(xiàn).pdf
- 基于Lucene的搜索引擎的研究與實現(xiàn).pdf
- 基于Lucene的主題搜索引擎模板的設(shè)計與實現(xiàn).pdf
- 基于lucene面向主題的手機搜索引擎的研究與實現(xiàn).pdf
- 基于Lucene的企業(yè)搜索引擎.pdf
- 基于Lucene垂直搜索引擎的研究與實現(xiàn).pdf
- 基于Lucene的搜索引擎優(yōu)化.pdf
- 基于Lucene面向主題搜索引擎的研究與設(shè)計.pdf
- LUCENE實現(xiàn)的基于RSS的博客搜索引擎.pdf
- 基于Lucene的搜索引擎的設(shè)計與實現(xiàn).pdf
評論
0/150
提交評論