基于nutch海關(guān)主題搜索引擎的研究與設(shè)計(jì)

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-06-15 格式：doc 頁(yè)數(shù)：7 大小：109.00KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

基于nutch海關(guān)主題搜索引擎的研究與設(shè)計(jì)_第1頁(yè)

已閱讀1頁(yè)，還剩6頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、　　基于Nutch海關(guān)主題搜索引擎的研究與設(shè)計(jì)　　【內(nèi)容摘要】運(yùn)用Nutch搜索引擎技術(shù)開(kāi)源和完整網(wǎng)絡(luò)搜索的設(shè)計(jì)思想，構(gòu)建了基于Nutch的海關(guān)情報(bào)資源主題搜索引擎系統(tǒng)模型，分析研究了系統(tǒng)各功能子模塊的主要作用和功能整合方案，并提出了系統(tǒng)實(shí)施運(yùn)行的相關(guān)技術(shù)路線；從而較好地解決了海關(guān)系統(tǒng)目前尚無(wú)專業(yè)化的主題搜索引擎的問(wèn)題，實(shí)現(xiàn)了在統(tǒng)一的技術(shù)平臺(tái)進(jìn)行海關(guān)情報(bào)和文獻(xiàn)資源的全文檢索，為

2、各級(jí)海關(guān)用戶提供了一個(gè)方便、快捷、準(zhǔn)確地獲取情報(bào)信息的有效工具。 　　【關(guān) 鍵詞】Nutch 海關(guān) 主題型搜索引擎統(tǒng)一檢索 　　海關(guān)系統(tǒng)不斷加大科技和資金投入，陸續(xù)開(kāi)通了各級(jí)海關(guān)門(mén)戶網(wǎng)站及海關(guān)統(tǒng)計(jì)咨詢網(wǎng)、中國(guó)通關(guān)網(wǎng)、電子口岸數(shù)據(jù)中心網(wǎng)等專業(yè)性站點(diǎn)。這些站點(diǎn)為宏觀經(jīng)濟(jì)和社會(huì)各界提供海量的資訊和詳盡的統(tǒng)計(jì)數(shù)據(jù)。同時(shí)，與外界物理隔絕的海關(guān)內(nèi)部業(yè)務(wù)網(wǎng)站也在

3、關(guān)際交流、學(xué)術(shù)研究、互助協(xié)作方面起到了積極作用。 　　無(wú)論從海關(guān)內(nèi)部的業(yè)務(wù)協(xié)作、科學(xué)研究的角度，還是從海關(guān)外部對(duì)海關(guān)資訊、統(tǒng)計(jì)數(shù)據(jù)的檢索需求角度考慮，都需要尋求一種有效的手段以便從海量信息中獲取有價(jià)值的信息。 　　目前，通用型搜索引擎的內(nèi)部排序算法和商業(yè)化的競(jìng)價(jià)排名機(jī)制決定了搜索結(jié)果的準(zhǔn)確率不是很高，且涉及領(lǐng)域太廣，需要用戶的二次篩選。尤其在海關(guān)領(lǐng)域的查

4、詢上，更顯得不夠深入和專業(yè)化。因此，社會(huì)和海關(guān)內(nèi)部都迫切需要一個(gè)以海關(guān)為主題的專業(yè)化搜索引擎。 　　一、相關(guān)概念 　　1.搜索引擎 　　搜索引擎，簡(jiǎn)而言之，是現(xiàn)代信息檢索技術(shù)在大規(guī)模文本集合上的實(shí)際應(yīng)用。從1993年誕生第一個(gè)搜索引擎&q

5、uot;Excite"至今，搜索引擎已經(jīng)進(jìn)入到第四個(gè)發(fā)展階段，即面向主題的搜索引擎。所謂主題型搜索引擎，就是以構(gòu)筑某一專題領(lǐng)域或?qū)W科領(lǐng)域的網(wǎng)絡(luò)信息資源庫(kù)為目標(biāo)，智能地在網(wǎng)絡(luò)上搜集符合設(shè)定專題或滿足學(xué)科需要的信息資源。一個(gè)搜索引擎在一個(gè)主題下的主題度越高，證明這個(gè)搜索引擎越貼近這個(gè)主題，用戶就越容易找到跟這個(gè)主題相關(guān)的資料。 　　2.Nutch &l

6、t;/p>　　Nutch是一個(gè)基于Lucene、開(kāi)源的、Java 實(shí)現(xiàn)的完整網(wǎng)絡(luò)搜索引擎解決方案。Nutch基于Hadoop的分布式處理模型可以保證執(zhí)行效率；同時(shí)擁有類似Eclipse的插件機(jī)制，足以保證系統(tǒng)良好的適應(yīng)性，而且很容易集成到客戶的應(yīng)用之中。 　　3.采用Nutch構(gòu)建主題型搜索引擎的優(yōu)勢(shì) 　?。?/p>

7、1）透明度好 　　與商業(yè)化搜索引擎不同，Nutch是開(kāi)放源代碼的，任何人都可以查看并修改其排序算法。因此 Nutch 對(duì)學(xué)術(shù)搜索和政府類站點(diǎn)的搜索來(lái)說(shuō)，有著更好的透明性，比較適合專業(yè)化和學(xué)術(shù)研究的要求。 　　（2）擴(kuò)展性強(qiáng) 　　Nutch是非常靈活的，可以

8、按需定制并集成到相應(yīng)的應(yīng)用程序中。如借助Nutch 的插件機(jī)制，可將Nutch作為一個(gè)搜索個(gè)性化信息載體的搜索平臺(tái)。根據(jù)海關(guān)主題型搜索引擎的檢索需求，將其集成到海關(guān)主題型搜索引擎的主頁(yè)，即可實(shí)現(xiàn)為用戶提供具有針對(duì)性的搜索服務(wù)的目標(biāo)。 　?。?）性價(jià)比高 　　使用Nutch本身并不需要支付任何費(fèi)用，在以最小的成本運(yùn)作的

9、前提下能夠做到：每個(gè)月抓取幾十億網(wǎng)頁(yè)；為每一個(gè)抓取到的網(wǎng)頁(yè)維護(hù)一個(gè)索引；對(duì)索引文件進(jìn)行每秒上千次的搜索；提供高質(zhì)量的搜索結(jié)果。 　　二、系統(tǒng)模型 　　面向海關(guān)主題的網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)思路是：以Nutch的crawl為基礎(chǔ)，對(duì)crawl進(jìn)行功能上的限定并明確其運(yùn)行的范圍，即根據(jù)目標(biāo)用戶的需求，將面向海關(guān)主題的web信息提

10、取限定在已知的、正式上線的官方網(wǎng)站站點(diǎn)內(nèi)，以此作為URL集合，實(shí)現(xiàn)對(duì)面向主題的信息的自動(dòng)采集；獲得鏈接數(shù)據(jù)后，通過(guò)主題篩選和分析建立全文索引庫(kù)；用戶對(duì)索引庫(kù)進(jìn)行檢索。系統(tǒng)大致可以分為三個(gè)層次： 　　（1）數(shù)據(jù)層：將URL集注入crawldb數(shù)據(jù)庫(kù)，根據(jù)crawl- 　　db數(shù)據(jù)庫(kù)創(chuàng)建抓取列表，執(zhí)行“創(chuàng)建列表/抓取網(wǎng)頁(yè)/更新數(shù)據(jù)庫(kù)”的循環(huán)直到完成抓取。 &

11、lt;/p>　?。?）中間層：根據(jù)抓取的網(wǎng)頁(yè)所生成的片段內(nèi)容更新鏈接數(shù)據(jù)庫(kù)，再進(jìn)一步建立全文索引 　?。?）應(yīng)用層：用戶通過(guò)用戶接口進(jìn)行查詢操作，通過(guò)Tomcat服務(wù)器將用戶查詢轉(zhuǎn)化為lucene查詢，最后返回結(jié)果。 　　三、功能模塊及實(shí)現(xiàn)路徑 　　1.抓取 <

12、/b>　　（1）建立初始URL集 　　初始URL集的建立有兩種方式：超鏈接和站長(zhǎng)提交。本系統(tǒng)擬采用站長(zhǎng)提交模式：即通過(guò)管理員建立以海關(guān)站點(diǎn)為主題的web地址集作為初始URL集，搜索引擎經(jīng)過(guò)核查之后，便將該類網(wǎng)站URL加入到crawldb數(shù)據(jù)庫(kù)中，進(jìn)行抓取。 　?。?）注入（inject）

13、;　　inject操作調(diào)用的是Nutch的核心包之一crawl包中的類injector，其主要作用是：將URL集合進(jìn)行格式化和過(guò)濾，設(shè)定URL狀態(tài)為：未抓?。║NFETCHED），并按照一定方法進(jìn)行初始化分值；將URL進(jìn)行合并，消除重復(fù)的URL入口。 　　（3）生成（generate） 　　generate操作調(diào)用的是crawl包中

14、的類generator，主要作用是：從crawldb數(shù)據(jù)庫(kù)中將URL取出并進(jìn)行過(guò)濾；對(duì)URL進(jìn)行排序，通過(guò)域名、鏈接數(shù)并通過(guò)一種hash算法處理后進(jìn)行降序排列；將排列列表寫(xiě)入segment 。 　　（4）抓?。╢etch） 　　fetch操作調(diào)用的是fetcher包中的類fercher，其主要操作是按照segment文件夾下的抓取列表進(jìn)行抓取作業(yè)，在抓取

15、過(guò)程中，頁(yè)面的URL地址可能因?yàn)殒溄影l(fā)生改變，從而需要更新URL地址，為了達(dá)到理想的信息獲取速度，一般采用多線程并行信息抓取的策略。 　?。?）解析（parse） 　　parse操作調(diào)用的是parse包中的類parsesegment，解析segment中由fetch得到的頁(yè)面，并進(jìn)行整理，將頁(yè)面分成為parse-date和parse-text，在pars

16、e-date中保存的是頁(yè)面的題名、作者、日期、鏈接等內(nèi)容，在parse-text中保存的是頁(yè)面的文本內(nèi)容。　?。?）更新數(shù)據(jù)庫(kù)（updatedb） 　　updatedb操作調(diào)用的是crawl包中的類crawldb，其主要作用是根據(jù)segment目錄下fetch文件夾和parse文件夾中的內(nèi)容，對(duì)crawldb進(jìn)行更新，增加新的URL，更換舊的URL。

17、;　　2.索引 　?。?）索引模塊 　　Lucene是Jakarta Apache的開(kāi)源項(xiàng)目，提供了非常簡(jiǎn)單的索引建立方法。在建立文檔類型的對(duì)象時(shí)，文檔的域（Field）與數(shù)據(jù)庫(kù)的表或視圖的結(jié)構(gòu)對(duì)應(yīng)，因此，可以根據(jù)元數(shù)據(jù)類別控制檢索權(quán)重，還能指定需要索引的域、需要分詞的域等。Lu

18、cene為文檔建立索引的過(guò)程，對(duì)文檔格式?jīng)]有要求，無(wú)論其格式為Html、MS word、Pdf、Excel、XML還是純粹的文本文件，只要能從這些文件中抽取出文本信息即可。為此，Nutch采用了插件機(jī)制（plugin），通過(guò)各種對(duì)應(yīng)的文檔解析器，將文檔轉(zhuǎn)換成純文字字符流。Lucene Analyzer負(fù)責(zé)過(guò)濾掉標(biāo)點(diǎn)符號(hào)和諸如"的、是、了"等無(wú)具體意義的字，將字符流轉(zhuǎn)換成各個(gè)關(guān)鍵字，對(duì)關(guān)鍵字按照“詞典文件（Term D

19、ictionary）、頻率文件（frequencies）、位置文件（positions）”的結(jié)構(gòu)存入索引文件中。 　　（2）分詞算法 　　不同于英文文章中的空格可以自然區(qū)分每個(gè)詞的邊界，中文文章需要對(duì)句子加以切分，才能形成詞，這就是分詞算法。系統(tǒng)擬采用包含112967個(gè)不同詞的分詞詞典THDic，以逆向最大匹配法（

20、RMM）進(jìn)行分詞操作。分詞詞典THDic的最大詞組的字?jǐn)?shù)為17，則從文章或句子的末尾開(kāi)始17個(gè)字為一組，與分詞詞典比對(duì)，若吻合則匹配成功，否則去掉第一個(gè)字后再次與分詞詞典比對(duì)，直至最后一個(gè)字。據(jù)統(tǒng)計(jì)，這種方法的錯(cuò)誤率僅為1/245。 　?。?）檢索 　　筆者通過(guò)逐一訪問(wèn)國(guó)內(nèi)100所排名靠前的高校圖書(shū)館的網(wǎng)站，得到如下

21、統(tǒng)計(jì)數(shù)據(jù)：在其主頁(yè)設(shè)置統(tǒng)一檢索窗口的占62%，而網(wǎng)站具備統(tǒng)一檢索功能的占83%。可見(jiàn)：對(duì)于擁有為數(shù)眾多、異構(gòu)的數(shù)字資源的高校圖書(shū)館，實(shí)現(xiàn)統(tǒng)一、便捷的一站式檢索方式是提升服務(wù)的必然趨勢(shì)。因此，必須設(shè)計(jì)制作出簡(jiǎn)潔美觀、功能實(shí)用的統(tǒng)一檢索界面，通過(guò)頁(yè)面表單接受用戶的查詢請(qǐng)求，后臺(tái)的Tomcat服務(wù)器接受到檢索請(qǐng)求后，對(duì)用戶輸入的搜索關(guān)鍵詞進(jìn)行切詞操作，將切分出的每個(gè)詞作為參數(shù)傳遞到Lucene索引文件庫(kù)，進(jìn)行比對(duì)查找，如果命中則對(duì)搜索的結(jié)果進(jìn)

22、行排序匯總，反饋給Tomcat服務(wù)器，最終輸出到Web頁(yè)面，如果沒(méi)有命中則顯示失敗信息。作為用戶方，呈現(xiàn)在頁(yè)面上的就是一個(gè)類似于百度或谷歌搜索的檢索輸入框，以及按相關(guān)度排序的檢索結(jié)果集。 　　本文以我國(guó)海關(guān)系統(tǒng)對(duì)于一個(gè)行業(yè)主題領(lǐng)域搜索引擎的迫切需求為出發(fā)點(diǎn)，介紹了搜索引擎、主題型搜索引擎及其相關(guān)技術(shù)，著重對(duì)如何將目前較為成熟的專業(yè)型Nutch搜索引擎的設(shè)計(jì)思想和主要功能應(yīng)用于構(gòu)建個(gè)性化搜索引擎的

23、構(gòu)思進(jìn)行了分析討論。通過(guò)分析Nutch的功能、結(jié)構(gòu)和優(yōu)勢(shì)，提出了完整的海關(guān)主題型搜索引擎的系統(tǒng)框架模型，進(jìn)而研究了實(shí)現(xiàn)這一系統(tǒng)的各個(gè)功能模塊及其實(shí)現(xiàn)方法，初步解決了海關(guān)主題搜索引擎及海關(guān)內(nèi)網(wǎng)資源檢索系統(tǒng)的構(gòu)建問(wèn)題。 　　參考文獻(xiàn)： 　　[1]W.Bruce，Croft Search Engines Informati

24、on Retrieval in Practice [M]，2009 New Jersey Addison-Wesley. 　　[2]吳敏琦，丁岳偉，基于Nutch的XML網(wǎng)站全文搜索引擎實(shí)現(xiàn)[J].計(jì)算機(jī)工程，2008.34.（15）95-96 　　[3]嚴(yán)良達(dá)，基于Lucene搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J].寧波職業(yè)技術(shù)學(xué)院學(xué)報(bào)，2009.13.（2）57

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

基于nutch海關(guān)主題搜索引擎的研究與設(shè)計(jì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

基于nutch海關(guān)主題搜索引擎的研究與設(shè)計(jì)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載