版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、<p> 本科畢業(yè)設(shè)計(論文)</p><p><b> ?。?0 屆)</b></p><p> 面向求職主題的搜索引擎的分析設(shè)計與實現(xiàn)</p><p><b> 目錄</b></p><p><b> 摘 要2</b></p>&l
2、t;p> Abstract4</p><p><b> 第一章 引言6</b></p><p> 1.1 選題的背景及研究意義6</p><p> 1.2主題搜索引擎的發(fā)展狀況及優(yōu)點7</p><p> 1.3求職主題搜索引擎的主要研究內(nèi)容8</p><p> 1.4
3、 求職主題搜索引擎要達到的目標8</p><p> 第二章 求職搜索引擎的關(guān)鍵技術(shù)10</p><p> 2.1 網(wǎng)絡(luò)爬蟲10</p><p> 2.1.1網(wǎng)絡(luò)爬蟲的基本結(jié)構(gòu)及工作流程10</p><p> 2.1.2從爬蟲的角度對互聯(lián)網(wǎng)進行劃分11</p><p> 2.1.3抓取策略11&l
4、t;/p><p> 2.1.4更新策略12</p><p> 2.1.5分布式抓取系統(tǒng)結(jié)構(gòu)13</p><p><b> 2.2索引器14</b></p><p> 2.2.1建立索引14</p><p> 2.2.2搜索引擎的中文分詞技術(shù)15</p><p&g
5、t;<b> 2.3檢索器16</b></p><p> 2.4用戶接口16</p><p> 2.5排序算法17</p><p> 2.5.1PageRank 算法概述17</p><p> 2.5.2從入鏈數(shù)量到 PageRank17</p><p> 第三章 面向求職
6、主題搜索引擎的需求分析19</p><p> 3.1系統(tǒng)功能和目標19</p><p> 3.2 功能需求19</p><p> 3.2.1功能總體描述20</p><p> 3.2.2 模塊功能描述20</p><p> 3.3開發(fā)環(huán)境和運行系統(tǒng)27</p><p>
7、第四章 面向主題搜索引擎的設(shè)計28</p><p> 4.1系統(tǒng)總體架構(gòu)設(shè)計28</p><p> 4.2系統(tǒng)功能模塊設(shè)計28</p><p> 4.2.1主題網(wǎng)絡(luò)爬蟲功能設(shè)計28</p><p> 4.2.2主題爬蟲類的設(shè)計29</p><p> 4.3索引模塊的功能設(shè)計30</p>
8、<p> 4.3.1索引模塊的功能的概述30</p><p> 4.3.2索引的類的設(shè)計30</p><p> 4.5數(shù)據(jù)庫設(shè)計31</p><p> 4.5.1數(shù)據(jù)庫的pdm圖:31</p><p> 4.5.2數(shù)據(jù)庫的描述31</p><p> 第五章 面向主題搜索引擎的實現(xiàn)3
9、3</p><p> 5.1主題爬蟲的實現(xiàn):33</p><p> 5.2用戶界面的實現(xiàn)35</p><p> 5.3中文分詞的實現(xiàn)35</p><p> 第六章 結(jié)論和展望37</p><p><b> 致 謝39</b></p><p><
10、;b> 參考文獻40</b></p><p><b> 摘 要</b></p><p> 隨著信息化的高速發(fā)展,信息量正以指數(shù)規(guī)律迅猛增長,互聯(lián)網(wǎng)已經(jīng)成為人類最重要的海量信源,“信息迷航”和“信息過載”已經(jīng)成為日益嚴重的問題?;贗nternet的各類搜索引擎應(yīng)運而生并得到了迅速發(fā)展。Google,百度等通用搜索引擎功能雖然非常強大,但
11、是當使用它們來檢索某些特定專業(yè)的信息時,通用搜索引擎系統(tǒng)就有些力不從心,面向主題的搜索引擎是一種分類細致精確、更新及時的搜索引擎。隨著Internet信息的爆炸增長以及信息多元化的發(fā)展,主題搜索引擎正成為未來搜索引擎發(fā)展的重點與趨勢。</p><p> 本文就基于面向主題搜索引擎的,提出了一種基于Lucene面向主題搜索引擎實現(xiàn)方案,實現(xiàn)了求職幫助信息主題搜索引擎。本文的主要敘述過程如下:</p>
12、<p> 首先,敘述了搜索引擎的發(fā)展背景和發(fā)展現(xiàn)狀及特點,回顧了搜索引擎的發(fā)</p><p> 展歷史,比較了通用搜索引擎和主題搜索引擎的區(qū)別,體現(xiàn)了主題搜索引擎在專</p><p><b> 業(yè)搜索方面的優(yōu)勢。</b></p><p> 其次,對面向主題搜索引擎的關(guān)鍵技術(shù)分三大模塊即:主題信息抓取、索引</p>
13、<p> 和檢索進行了深入分析和實現(xiàn)。簡單的實現(xiàn)了基于Java的全文索引引擎工具包Lucene,分析了Lucene與傳統(tǒng)數(shù)據(jù)庫相比的不同之處,體現(xiàn)了利用Lucene進行索引和檢索的高效性、準確性。</p><p> 然后,基于以上關(guān)鍵技術(shù),提出了求職幫助信息主題的搜索引擎設(shè)計方案。</p><p> 詳細介紹了基于Lucence的應(yīng)聘幫助信息主題搜索引擎的具體實現(xiàn)過程。
14、</p><p> 最后,對論文的各項工作進行了總結(jié),并指出了今后發(fā)展方向和進一步的工</p><p> 作,以便以后不斷更新和完善?;贚ucene的求職幫助信息主題搜索引擎系統(tǒng),保證了對求職幫助信息的完全收錄與及時更新,避免了強大的搜索噪音,提高了檢索效率,能快、全、準地提供專題信息查詢。</p><p> 本論文的主要研究內(nèi)容:</p>&
15、lt;p> ?。疚闹饕芯苛酥黝}搜索的網(wǎng)絡(luò)爬蟲。</p><p> .對Apache Lucene全文索引引擎工具包進行了深入剖析,及中文切分詞技術(shù)。</p><p> .在分析了主題搜索引擎關(guān)后,提出了求職幫助信息主題的搜索引擎設(shè)計方案。</p><p> ?。钊肫饰隽嗽谠O(shè)計實現(xiàn)中運用的關(guān)鍵技術(shù),并在剖析的基礎(chǔ)上進行了擴展及</p>&
16、lt;p> 二次開發(fā),設(shè)計實現(xiàn)了基于Lucene的應(yīng)聘幫助主題搜索引擎。</p><p> 【關(guān)鍵詞】:網(wǎng)絡(luò)爬蟲、Lucene、信息索引、面向主題的搜索引擎</p><p><b> Abstract</b></p><p> With the rapid development of information technology
17、, the amount of information is growing at exponential law, the Internet has become the people.The most important data source, "getting lost in information" and "information overload" has become an inc
18、reasingly serious problem.Internet all kinds of search engines emerge as the times require and has obtained rapid development based on. Google, Baidu etc..Using a search engine function is very powerful, but when to use
19、them to retrieve specific pr</p><p> Subject oriented search engine is a kind of precise classification, timely updated search engine. Along with the explosive growth of Internet information and the develop
20、ment of pluralistic information, search engine is becoming focus and trend of future search engine development.</p><p> This paper is based on the subject oriented search engine, propose a Luccne topic Orie
21、nted Search Engine Implementation Based on, implement a job help info search engine. This paper mainly describes the process as follows:</p><p> Firstly, this paper describes the development background and
22、the development status and characteristics of search engine, review of the search engine.Development history, the differences between the general search engine and search engine, embodies the theme search engine in the C
23、ollege Enterprise search advantage.</p><p> Secondly, subject oriented search engine key technologies is divided into three modules: information crawling, indexing.And retrieval of in-depth analysis and imp
24、lementation. Simple realization of the Lucene full-text search engine toolkit based on Java, analyzes the Lucene difference compared with the traditional database, the high efficiency, accuracy for indexing and retrieval
25、 of the Lucene.</p><p> Then, based on the above key technologies, proposes a search engine design scheme of job help info.Introduces the realization process of the Lucence of job help info search engine ba
26、sed on.</p><p> Finally, the work of this thesis is summarized, and points out the future development direction and further work.</p><p> For, in order to constantly update and improve the. Lu
27、cene job help info search engine system based on fully included, ensure the on job search help and update the information, to avoid the search for noise robust, improves the efficiency of retrieval, can quickly, accurate
28、ly, all provide special information query.</p><p> The main research contents of this thesis:</p><p> 1 this paper mainly studies the network crawler topic search.</p><p> 2 on t
29、he Apache I_, a thorough analysis of uccne full-text search engine toolkit, word segmentation technology and Chinese.</p><p> 3 in the analysis of the topic search engine, search engine proposed design sche
30、me of job help info.</p><p> 4 in-depth analysis of the key technology used in the design and implementation, and the expansion and on the basis of the analysis</p><p> Two times the developme
31、nt, design and implementation of search engine based on Lucene for help topics.</p><p> [Keywords]: web crawler, Lucene, information indexing, subject oriented search engine</p><p><b> 第
32、一章 引言</b></p><p> 1.1 選題的背景及研究意義</p><p> 隨著科技與時代的發(fā)展,Internet已經(jīng)成為我們學習和工作的重要工具,與我們的生活密不可分?;ヂ?lián)網(wǎng)上的信息數(shù)以億計,如何在這浩如煙海的世界中找到自己想要的信息已經(jīng)成為互聯(lián)網(wǎng)技術(shù)的一個非常重要的研究課題。近年來就業(yè)壓力越來越大,如何選擇更好的,適合自己的職位及如何為將要面臨的面試等做
33、準備受到越來越多的關(guān)注。搜索引擎的問世,為我們快速、準確、有效地獲取網(wǎng)絡(luò)信息資源提供了極大的幫助,是互聯(lián)網(wǎng)信息查詢的導航針,是溝通用戶與網(wǎng)絡(luò)信息的橋梁。但是,隨著Internet信息急劇膨脹以及信息多元化的發(fā)展,傳統(tǒng)搜索引擎采集索引查詢內(nèi)容不斷擴大。這使搜索引擎面臨巨大的困難,而且越來越不能滿足主題用戶的需求。常見到這樣的情況:為了獲取數(shù)條相關(guān)信息,用戶不得不在大量的失效信息、甚至垃圾信息中費力尋找。目前人們對搜索引擎的首要關(guān)注點已經(jīng)從
34、如何找到更多的信息轉(zhuǎn)向如何快速找到準確、有用的信息。用戶迫切需要一個數(shù)據(jù)分類細致、準確、全面、更新及時的面向主題的搜索引擎來獲取主題資源信息。</p><p> 這種情況下,主題搜索引擎應(yīng)運而生并成為發(fā)展趨勢,是搜索引擎發(fā)展史上的一塊里程碑。主題搜索引擎保證了對某一領(lǐng)域信息的完全收錄與及時更新,避免了搜索時強大的“噪音”,提高了查詢效率。在提供專業(yè)信息方面有著其它檢索工具無法比擬的優(yōu)勢。主題搜索引擎具備有效的信
35、息采集策略,索引更新周期大大縮短,通常能在很短時間內(nèi)提供更新的網(wǎng)上專業(yè)領(lǐng)域信息查詢,甚至能在數(shù)小時內(nèi)更新查詢信息。主題搜索引擎面向某一特定的專業(yè)領(lǐng)域,專注于自己的特長和核心技術(shù),保證了對該領(lǐng)域信息的完全收錄與及時更新。同時能夠把具有相同興趣點的人們集中在一個“主題社區(qū)”內(nèi),通過及時集中提供各種專業(yè)資源查詢,避免了大量的搜索噪音,提高了查詢效率。在提供專業(yè)信息方面有著其它檢索工具無法比擬的優(yōu)勢。</p><p>
36、 面對如此浩瀚的互聯(lián)網(wǎng)資源,搜索引擎為所有網(wǎng)上沖浪的用戶提供了一個入口。但是,隨著信息多元化的增長,千篇一律的給所有用戶提供同一個入口顯然己經(jīng)不能滿足特定用戶更深入的查詢需求。同時,在目前的硬件條件下,通用搜索引擎要及時更新以得到互聯(lián)網(wǎng)上較全面的信息是不太可能的。針對這種情況,需要一個面向主題的、對硬件要求低、數(shù)據(jù)全面深入、更新及時的專題搜索引擎。面向特定領(lǐng)域的搜索技術(shù)已經(jīng)成為近幾年來搜索領(lǐng)域里比較熱的研究方向,針對某一領(lǐng)域、某一特定人
37、群</p><p> 或某一特定需求建立的搜索引擎稱為主題搜索引擎。主題搜索引擎因針對性強、目標明確和查準率高而成為獲取專業(yè)或?qū)I(yè)信息的重要工具。面向求職主題搜索就是眾多主題研究方向之一。</p><p> 雖然面向求職的主題搜索已經(jīng)出現(xiàn),但筆者注意到,在找工作過程中,面臨激烈的人才競爭,除了廣泛尋找職位信息之外,及時準確地搜集面試技巧、面試經(jīng)驗,公司資料等求職幫助信息也顯得尤為重要,
38、特別是現(xiàn)在許多大公司實行多輪淘汰制,每輪采用不同的形式和內(nèi)容,所以知己知彼百戰(zhàn)不殆,在同等條件下獲得及時的相關(guān)信息也成為制勝的法寶,所以在深入分析各種搜索引擎基礎(chǔ)上,針對現(xiàn)有求職主題的不足,本論文提出了一個面向求職幫助信息的搜索引擎方案, 并付之于實現(xiàn),拋磚引玉,旨在對廣大求職者給予一定的幫助。</p><p> 1.2主題搜索引擎的發(fā)展狀況及優(yōu)點</p><p> 面向特定領(lǐng)域的搜索
39、技術(shù)己經(jīng)成為近幾年來搜索領(lǐng)域里比較熱的研究方向,針對某一領(lǐng)域、某一特定人群或某一特定需求建立的搜索引擎稱為主題搜索引擎(Topic-specify Search Engine)。主題搜索引擎又稱為專題搜索引擎、專業(yè)搜索引擎、垂直搜索引擎。它們專門采集某一學科、某一主題、某一行業(yè)范圍的信息資源,并用更為詳細和專業(yè)的方法對信息資源進行標引和描述,且往往在信息組織時設(shè)計利用與該專業(yè)密切相關(guān)的方法技術(shù)。這種搜索引擎專注于自己的特長和核心技術(shù),保
40、證了對該領(lǐng)域信息的完全收錄與及時更新,在提供專業(yè)信息方面有著大型通用搜索引擎無法比擬的優(yōu)勢,成為搜索引擎發(fā)展的一個新趨勢。它的服務(wù)對象通常是專業(yè)領(lǐng)域的研究人員。眾所周知,每個專業(yè)領(lǐng)域都有專有的詞匯和用語,主題搜索引擎使用與之相應(yīng)的索引技術(shù)和檢索語言,從而使在特定主題范圍內(nèi)的檢索效果優(yōu)于通用搜索引擎。主題搜索引擎因針對性強、目標明確和查準率高而成為獲取專業(yè)或?qū)I(yè)信息的重要工具。常見的主題搜索的研究包括面向法律專業(yè)領(lǐng)域的,面向新聞的,面向圖
41、片或歌曲等等。主題引擎有以下優(yōu)點:</p><p> .只要搜集某一特定學科領(lǐng)域或特定專題的Interact信息資源即可;</p><p> .能夠方便地進行搜集主題和學科的自定義配置。</p><p> .采集的學科領(lǐng)域小,信息量相對較少,從而容易建立高質(zhì)量、專業(yè)信息收錄全、能夠及時更新的索引數(shù)據(jù)庫。</p><p> .只涉及某一
42、個或幾個領(lǐng)域,詞匯和用語的一詞、一字多義的可能性降低,而且利用專業(yè)詞表進行規(guī)范和控制,從而大大提高查全率和查準率。</p><p> .信息采集量小,·網(wǎng)絡(luò)傳輸量小,有利于網(wǎng)絡(luò)帶寬的有效利用。</p><p> .索引數(shù)據(jù)庫的規(guī)模小,有利于縮短查詢響應(yīng)時間,還可以采用復雜的查詢語法,提高用戶的準確查詢精度。</p><p> .數(shù)據(jù)規(guī)模的降低,可以節(jié)
43、省搜索引擎的投資成本,用普通的硬件投資即可建立高質(zhì)、高效的主題搜索引擎。</p><p> 1.3求職主題搜索引擎的主要研究內(nèi)容</p><p> 本論文研究的重點是設(shè)計并實現(xiàn)面向求職主題的搜索引擎——應(yīng)聘幫助信息搜索引擎。這個系統(tǒng)主要面對想要在網(wǎng)絡(luò)上獲得求職信息的人群。旨在幫助求職業(yè)人員對信息進行集中搜集、整理工作。求職人員可以通過該搜索引擎及時準確的搜集面試技巧,面試筆試經(jīng)驗,公司
44、資料等求職幫助信息。所謂應(yīng)聘信息在本系統(tǒng)體現(xiàn)為比較具體的針對公司的面試和筆試經(jīng)歷的描述信息,該信息主題主要面向那些面臨職業(yè)選擇,要接受各大公司考驗的學生和工作人員。之所以選擇該信息主題,是因為我們對找工作經(jīng)歷的體會,當接到某公司面試或筆試通知時,迫切想要在網(wǎng)絡(luò)上尋求相關(guān)經(jīng)驗談以獲得幫助,或者想對公司的情況獲得深入了解,為了快速達到目的節(jié)省時間,設(shè)計一個關(guān)于面經(jīng)筆經(jīng)信息主題的搜索引擎就顯得尤為重要。</p><p>
45、; 1.4 求職主題搜索引擎要達到的目標</p><p><b> ?。^高的查全率。</b></p><p><b> ?。^高的查準率。</b></p><p> ?。WC高性能。主要考慮查詢速度和對內(nèi)存的要求。</p><p> .保證系統(tǒng)的健壯性。</p><p>
46、;<b> ?。梢浦残?。</b></p><p> ?。δ苣K化。各種功能模塊化設(shè)計,即為搜索引擎所用 </p><p> ?。嗑€程。可以提高機器人的效率,便于并行處理和控制。</p><p> ?。己玫膮?shù)配置。要盡可能的考慮到不同情況,如是否遵守RobotExclusion 協(xié)議、是否自啟動、爬行時間、線程數(shù)等。</p
47、><p> .友好、個性化的查詢界面。與用戶交流的界面友好,操作方便,具有個性化方便用戶學習使用,具有使用方便的幫助功能。</p><p> 第二章 求職搜索引擎的關(guān)鍵技術(shù)</p><p><b> 2.1 網(wǎng)絡(luò)爬蟲</b></p><p> 網(wǎng)絡(luò)爬蟲是捜索引擎抓取系統(tǒng)的重要組成部分。爬蟲的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)
48、頁下載到本地形成一個或聯(lián)網(wǎng)內(nèi)容的鏡像備份。</p><p> 2.1.1網(wǎng)絡(luò)爬蟲的基本結(jié)構(gòu)及工作流程</p><p> 網(wǎng)絡(luò)爬蟲的基本工作流程如下:</p><p> 1)首先選取一部分精心挑選的種子URL;</p><p> 2)將這些URL放入待抓取URL隊列;</p><p> 3)從待抓取URL隊列中
49、取出待抓取在URL,解析DNS,并且得到主機的ip,并將URL對應(yīng)的網(wǎng)頁下載下來,存儲進已下載網(wǎng)頁庫中。此外,將這些URL放進已抓取URL隊列。</p><p> 4)分析已抓取URL隊列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊列,從而進入下一個循環(huán)。</p><p> 2.1.2從爬蟲的角度對互聯(lián)網(wǎng)進行劃分</p><p> 可以將互
50、聯(lián)網(wǎng)的所有頁面分為五個部分:</p><p> 1)已下載未過期網(wǎng)頁</p><p> 2)已下載已過期網(wǎng)頁:抓取到的網(wǎng)頁實際上是互聯(lián)網(wǎng)內(nèi)容的一個鏡像與備份,互聯(lián)網(wǎng)是動態(tài)變化的,一部分互聯(lián)網(wǎng)上的內(nèi)容已經(jīng)發(fā)生了變化,這時,這部分抓取到的網(wǎng)頁就已經(jīng)過期了。</p><p> 3)待下載網(wǎng)頁:也就是待抓取URL隊列中的那些頁面</p><p>
51、; 4)可知網(wǎng)頁:還沒有抓取下來,也沒有在待抓取URL隊列中,但是可以通過對已抓取頁面或者待抓取URL對應(yīng)頁面進行分析獲取到的URL,認為是可知網(wǎng)頁。</p><p> 5)還有一部分網(wǎng)頁,為不可知網(wǎng)頁,爬蟲是無法直接抓取下載的。</p><p><b> 2.1.3抓取策略</b></p><p> 在爬蟲系統(tǒng)中,待抓取URL隊列是很
52、重要的一部分。待抓取URL隊列中的URL以什么樣的順序排列也是一個很重要的問題,因為這涉及到先抓取那個頁面,后抓取哪個頁面。而決定這些URL排列順序的方法,叫做抓取策略。下面重點介紹幾種常見的抓取策略:</p><p> 1)深度優(yōu)先遍歷策略</p><p> 深度優(yōu)先遍歷策略是指網(wǎng)絡(luò)爬蟲會從起始頁開始,一個鏈接一個鏈接跟蹤下去,處理完這條線路之后再轉(zhuǎn)入下一個起始頁,繼續(xù)跟蹤鏈接。&l
53、t;/p><p> 2)寬度優(yōu)先遍歷策略</p><p> 寬度優(yōu)先遍歷策略的基本思路是,將新下載網(wǎng)頁中發(fā)現(xiàn)的鏈接直接插入待抓取URL隊列的末尾。也就是指網(wǎng)絡(luò)爬蟲會先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁,然后再選擇其中的一個鏈接網(wǎng)頁,繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。還是以上面的圖為例:</p><p> 遍歷路徑:A-B-C-D-E-F G H I</p>
54、<p><b> 3)反向鏈接數(shù)策略</b></p><p> 反向鏈接數(shù)是指一個網(wǎng)頁被其他網(wǎng)頁鏈接指向的數(shù)量。反向鏈接數(shù)表示的是一個網(wǎng)頁的內(nèi)容受到其他人的推薦的程度。因此,很多時候搜索引擎的抓取系統(tǒng)會使用這個指標來評價網(wǎng)頁的重要程度,從而決定不同網(wǎng)頁的抓取先后順序。</p><p> 在真實的網(wǎng)絡(luò)環(huán)境中,由于廣告鏈接、作弊鏈接的存在,反向鏈接數(shù)不能
55、完全等他我那個也的重要程度。因此,搜索引擎往往考慮一些可靠的反向鏈接數(shù)。</p><p><b> 4)算法策略</b></p><p> 本文算法借鑒了PageRank算法的思想:對于已經(jīng)下載的網(wǎng)頁,連同待抓取URL隊列中的URL,形成網(wǎng)頁集合,計算每個頁面的 PageRank值,計算完之后,將待抓取URL隊列中的URL按照PageRank值的大小排列,并按照該
56、順序抓取頁面。</p><p> 5)OPIC策略策略</p><p> 該算法實際上也是對頁面進行一個重要性打分。在算法開始前,給所有頁面一個相同的初始現(xiàn)金(cash)。當下載了某個頁面P之后,將P的現(xiàn)金分攤給所有從P中分析出的鏈接,并且將P的現(xiàn)金清空。對于待抓取URL隊列中的所有頁面按照現(xiàn)金數(shù)進行排序。</p><p><b> 6)大站優(yōu)先策略
57、</b></p><p> 對于待抓取URL隊列中的所有網(wǎng)頁,根據(jù)所屬的網(wǎng)站進行分類。對于待下載頁面數(shù)多的網(wǎng)站,優(yōu)先下載。這個策略也因此叫做大站優(yōu)先策略。 </p><p><b> 2.1.4更新策略</b></p><p> 互聯(lián)網(wǎng)是實時變化的,具有很強的動態(tài)性。網(wǎng)頁更新策略主要是決定何時更新之前已經(jīng)下載過的頁面。常見的更
58、新策略又以下三種:</p><p><b> 1)歷史參考策略</b></p><p> 顧名思義,根據(jù)頁面以往的歷史更新數(shù)據(jù),預測該頁面未來何時會發(fā)生變化。一般來說,是通過泊松過程進行建模進行預測。</p><p> 2)用戶體驗策略 盡管搜索引擎針對于某個查詢條件能夠返回數(shù)量巨大的結(jié)果,但是用戶往往只關(guān)注前幾頁結(jié)果。因此,抓取
59、 系統(tǒng)可以優(yōu)先更新那些現(xiàn)實在查詢結(jié)果前幾頁中的網(wǎng)頁,而后再更新那些后面的網(wǎng)頁。這種更新策略也是需要用到歷史信息的。用戶體驗策略保留網(wǎng)頁的多個歷史版 本,并且根據(jù)過去每次內(nèi)容變化對搜索質(zhì)量的影響,得出一個平均值,用這個值作為決定何時重新抓取的依據(jù)。 3).聚類抽樣策略</p><p> 前面提到的兩種更新策略都有一個前提:需要網(wǎng)頁的歷史信息。這樣就存在兩個問題:第一,系統(tǒng)要是為每個系統(tǒng)保存多個版本的歷史信
60、息,無疑增加了很多的系統(tǒng)負擔;第二,要是新的網(wǎng)頁完全沒有歷史信息,就無法確定更新策略。</p><p> 這種策略認為,網(wǎng)頁具有很多屬性,類似屬性的網(wǎng)頁,可以認為其更新頻率也是類似的。要計算某一個類別網(wǎng)頁的更新頻率,只需要對這一類網(wǎng)頁抽樣,以他們的更新周期作為整個類別的更新周期。 </p><p> 2.1.5分布式抓取系統(tǒng)結(jié)構(gòu)</p><p> 一般
61、來說,抓取系統(tǒng)需要面對的是整個互聯(lián)網(wǎng)上數(shù)以億計的網(wǎng)頁。單個抓取程序不可能完成這樣的任務(wù)。往往需要多個抓取程序一起來處理。一般來說抓取系統(tǒng)往往是一個分布式的三層結(jié)構(gòu)。如圖所示:</p><p> 最下一層是分布在不同地理位置的數(shù)據(jù)中心,在每個數(shù)據(jù)中心里有若干臺抓取服務(wù)器,而每臺抓取服務(wù)器上可能部署了若干套爬蟲程序。這就構(gòu)成了一個基本的分布式抓取系統(tǒng)。對于一個數(shù)據(jù)中心內(nèi)的不同抓去服務(wù)器,協(xié)同工作的方式有幾種:<
62、;/p><p> 1)主從式(Master-Slave)</p><p> 對于主從式而言,有一臺專門的Master服務(wù)器來維護待抓取URL隊列,它負責每次將URL分發(fā)到不同的Slave服務(wù)器,而Slave服務(wù)器則負責實 際的網(wǎng)頁下載工作。Master服務(wù)器除了維護待抓取URL隊列以及分發(fā)URL之外,還要負責調(diào)解各個Slave服務(wù)器的負載情況。以免某些Slave服 務(wù)器過于清閑或者勞累。
63、這種模式下,Master往往容易成為系統(tǒng)瓶頸。</p><p> 2)對等式(Peer to Peer)</p><p> 在這種模式下,所有的抓取服務(wù)器在分工上沒有不同。每一臺抓取服務(wù)器都可以從待抓取在URL隊列中獲取URL,然后對該URL的主域名的hash值H,然 后計算H mod m(其中m是服務(wù)器的數(shù)量,以上圖為例,m為3),計算得到的數(shù)就是處理該URL的主機編號。</p
64、><p> 舉例:假設(shè)對于URL www.baidu.com,計算器hash值H=8,m=3,則H mod m=2,因此由編號為2的服務(wù)器進行該鏈接的抓取。假設(shè)這時候是0號服務(wù)器拿到這個URL,那么它將該URL轉(zhuǎn)給服務(wù)器2,由服務(wù)器2進行抓取。</p><p> 一致性哈希將URL的主域名進行哈希運算,映射為一個范圍在0-232之間的某個數(shù)。而將這個范圍平均的分配給m臺服務(wù)器,根據(jù)URL主
65、域名哈希運算的值所處的范圍判斷是哪臺服務(wù)器來進行抓取。</p><p> 如果某一臺服務(wù)器出現(xiàn)問題,那么本該由該服務(wù)器負責的網(wǎng)頁則按照順時針順延,由下一臺服務(wù)器進行抓取。這樣的話,及時某臺服務(wù)器出現(xiàn)問題,也不會影響其他的工作。</p><p><b> 2.2索引器</b></p><p><b> 2.2.1建立索引</
66、b></p><p> 索引器的功能是對搜索器所搜索的信息進行分析處理,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表。索引項有元數(shù)據(jù)索引項和內(nèi)容索引項兩 種: 元數(shù)據(jù)索引項與文檔的語意內(nèi)容無關(guān),如作者名、URL、更新時間、編碼、長度、鏈接流行度等等; 內(nèi)容索引項是用來反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語、單字等等。內(nèi)容索引項可以分為單索引項和多索引項(或稱短語索引項)兩種。單索引項對于英文來 講
67、是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格); 對于中文等連續(xù)書寫的語言,必須進行詞語的切分。在搜索引擎中,一般要給單索引項賦予一個權(quán)值,以表示該索引項對文檔的區(qū)分度,同時用來計算查詢結(jié)果的相 關(guān)度。使用的方法一般有統(tǒng)計法、信息論法和概率法。短語索引項的提取方法有統(tǒng)計法、概率法和語言學法。</p><p> 為了快速查找到特定的信息,建立索引數(shù)據(jù)庫是一個常用的方法,即將文檔表示為一種便于檢索的方
68、式并存儲在索引數(shù)據(jù)庫中。索引數(shù)據(jù)庫的格式是一種依賴于索引 機制和算法的特殊數(shù)據(jù)存儲格式。索引的質(zhì)量是Web信息檢索系統(tǒng)成功的關(guān)鍵因素之一。一個好的索引模型應(yīng)該易于實現(xiàn)和維護、檢索速度快、空間需求低。搜索 引擎普遍借鑒了傳統(tǒng)信息檢索中的索引模型,包括倒排文檔、矢量空間模型、概率模型等。例如在矢量空間索引模型中,每個文檔d都表示為一個范化矢量 V(d)=(t1,w1 (d)…ti,w1(d)…tn,wn(d))。其中ti為詞條項,wi(d)
69、為ti在d中的權(quán)值,一般被定義為ti在d中出現(xiàn)頻率tfi(d)的函數(shù)。</p><p> 索引器的輸出是索引表,它一般使用倒排形式(Inversion List),即由索引項查找相應(yīng)的文檔。索引表也可能記錄索引項在文檔中出現(xiàn)的位置,以便檢索器計算索引項之間的相鄰或接近關(guān)系(proximity)。 索引器可以使用集中式索引算法或分布式索引算法。當數(shù)據(jù)量很大時,必須實現(xiàn)實時索引(Instant Indexing),
70、否則就無法跟上信息量急劇增加的速度。索引算法對索引器的性能(如大規(guī)模峰值查詢時的響應(yīng)速度)有很大的影響。一個搜索引擎的有效性 在很大程度上取決于索引的質(zhì)量。</p><p> 2.2.2搜索引擎的中文分詞技術(shù)</p><p> 中文自動分詞是網(wǎng)頁分析的基礎(chǔ)。在網(wǎng)頁分析的過程中,中文與英文的處理方式是不同的,這是因為中文信息與英文信息有一個明顯的差別: 英文單詞之間有空格,而中文文本中詞
71、與詞之間沒有分割符。這就要求在對中文網(wǎng)頁進行分析之前,先要將網(wǎng)頁中的句子切割成一個個的詞的序列,這就是中文分 詞。中文自動分詞涉及到許多自然語言處理技術(shù)和評價標準,在搜索引擎中,我們主要關(guān)心中文自動分詞的速度和準確度。分詞準確性對搜索引擎來說十分重要,但 如果分詞速度太慢,即使準確性再高,對于搜索引擎來說也是不可用的,因為搜索引擎需要處理數(shù)以億計的網(wǎng)頁,如果分詞耗用的時間過長,會嚴重影響搜索引擎內(nèi) 容更新的速度。因此,搜索引擎對分詞的準
72、確性和速度都提出了很高的要求。</p><p> 目前,中文自動分詞比較成熟的技術(shù)是基于分詞詞典的機械分詞方法。這種方法是按照一定的策略將要分析的漢字串與詞典中的詞條進行匹配。根據(jù)匹配策略的不 同,機械分詞方法又有如下幾種算法: 正向最大匹配算法、逆向最大匹配算法、最少分詞算法等。這種方法的優(yōu)點是分詞的速度快,準確度有一定的保證,但對未登錄詞的處理效果較差。實驗結(jié)果表明: 正向最大匹配的錯誤率為1/169左右,
73、逆向最大匹配的錯誤率為1/245左右。另一種比較常用的中文自動分詞方法是基于統(tǒng)計的分詞方法,這種方法是對語 料中的字組頻度進行統(tǒng)計,不需要切分詞典,因此也稱為無詞典分詞方法。但該方法經(jīng)常把不是詞的常用字組當成詞,對常用詞的識別精度較差,時空開銷也比較 大。在搜索引擎領(lǐng)域的實際應(yīng)用中,一般將機械分詞方法與統(tǒng)計分詞方法相結(jié)合,先進行串匹配分詞,然后使用統(tǒng)計方法識別一些未登錄的新詞,這樣既發(fā)揮了匹配 分詞速度快、效率高的優(yōu)勢,又利用了統(tǒng)計分詞
74、中新詞自動識別和自動消除分詞歧義的特點。</p><p> 分詞詞典是影響中文自動分詞的一個重要因素,其規(guī)模一般在6萬條詞左右,詞典太大或太小都是不合適的; 辭典太小,有些詞切分不出來,辭典太大,切分過程中起義現(xiàn)象將大大增加,同樣影響分詞的精度。因此,分詞詞典中詞條的選擇是非常嚴格的。對于不斷出現(xiàn)新詞 的網(wǎng)絡(luò)領(lǐng)域,僅僅使用6萬條詞左右的分詞詞典是不夠的,但隨意向分詞詞典中加入新詞將導致分詞精度下降,一般的解決方
75、法是使用輔助詞典,其規(guī)模在50萬詞 條左右。另外,中文自動分詞的難點在于分詞歧義的處理和未登錄詞的識別,如何處理這兩個問題一直是該領(lǐng)域研究的熱點。</p><p> 目前,中文自動分詞技術(shù)在搜索引擎中已經(jīng)得到廣泛應(yīng)用,分詞準確度已經(jīng)達到96%以上,但是在對大規(guī)模網(wǎng)頁進行分析處理的時候,現(xiàn)有的中文自動分詞技術(shù)還 存在許多不足,例如上面提到的歧義問題和未登錄詞的處理問題等。因此,國內(nèi)外的科研院校,如北大、清華、中科
76、院、北京語言學院、東北大學、IBM研究院、 微軟中國研究院等都一直關(guān)注并研究中文自動分詞技術(shù),這主要是因為網(wǎng)絡(luò)上的中文信息越來越多,對網(wǎng)絡(luò)上的中文信息的處理必將成為一個巨大的產(chǎn)業(yè)和廣闊的市 場,存在無限的商機。但是,中文自動分詞技術(shù)要想更好地服務(wù)于網(wǎng)絡(luò)中文信息的處理并形成產(chǎn)品,還要在基礎(chǔ)研究方面和系統(tǒng)的集成方面做許多工作。</p><p><b> 2.3檢索器</b></p>
77、<p> 檢索器的功能是根據(jù)用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關(guān)度評價,對將要輸出的結(jié)果進行排序,并實現(xiàn)某種用戶相關(guān)性反饋機制。檢索器常 用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型等多種,可以查詢到文本信息中的任意字詞,無論出現(xiàn)在標題還是正文中。</p><p> 檢索器從索引中找出與用戶查詢請求相關(guān)的文檔,采用與分析索引文檔相識的方法來處理用戶查詢請求。如在
78、矢量空間索引模型中,用戶查詢q首先被表示為一個范 化矢量V(q)=(t1,w1(q); …; ti,wi(q); …; tn,wn(q)),然后按照某種方法來計算用戶查詢與索引數(shù)據(jù)庫中每個文檔之間的相關(guān)度,而相關(guān)度可以表示為查詢矢量V(q)與文檔矢量V(d)之間的 夾角余弦,最后將相關(guān)度大于閥值的所有文檔按照相關(guān)度遞減的順序排列并返還給用戶。當然搜索引擎的相關(guān)度判斷并不一定與用戶的需求完全吻合。</p><p>
79、<b> 2.4用戶接口</b></p><p> 用戶接口的作用是為用戶提供可視化的查詢輸入和結(jié)果輸出界面,方便用戶輸入查詢條件、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機制等,其主要目的是方便用 戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效的信息。用戶接口的設(shè)計和實現(xiàn)必須基于人機交互的理論和方法,以適應(yīng)人類的思維和使用習慣。</p><p> 在查詢界面中,
80、用戶按照搜索引擎的查詢語法制定待檢索詞條及各種簡單或高級檢索條件。簡單接口只提供用戶輸入查詢串的文本框,復雜接口可以讓用戶對查詢條 件進行限制,如邏輯運算(與、或、非)、相近關(guān)系(相鄰、NEAR)、域名范圍(如edu、com)、出現(xiàn)位置(如標題、內(nèi)容)、時間信息、長度信息等 等。目前一些公司和機構(gòu)正在考慮制定查詢選項的標準。</p><p> 在查詢輸出界面中,搜索引擎將檢索結(jié)果展現(xiàn)為一個線性的文檔列表,其中包
81、含了文檔的標題、摘要、快照和超鏈等信息。由于檢索結(jié)果中相關(guān)文檔和不相關(guān)文檔相互混雜,用戶需要逐個瀏覽以找出所需文檔</p><p><b> 2.5排序算法</b></p><p> 2.5.1PageRank 算法概述</p><p> PageRank是用來標識網(wǎng)頁的等級/重要性的一種方法,是Google用來衡量一個網(wǎng)站的好壞的唯一標
82、準。在揉合了諸如Title標識和 Keywords標識等所有其它因素之后,通過PageRank來調(diào)整結(jié)果,使那些更具“等級/重要性”的網(wǎng)頁在搜索結(jié)果中另網(wǎng)站排名獲得提 升,從而提高搜索結(jié)果的相關(guān)性和質(zhì)量。其級別從0到10級,10級為滿分。PR值越高說明該網(wǎng)頁越受歡迎(越重要)。例如:一個PR值為1的網(wǎng)站表明這個 網(wǎng)站不太具有流行度,而PR值為7到10則表明這個網(wǎng)站非常受歡迎(或者說極其重要)。一般PR值達到4,就算是一個不錯的網(wǎng)站了。G
83、oogle把自己的 網(wǎng)站的PR值定到10,這說明Google這個網(wǎng)站是非常受歡迎的,也可以說這個網(wǎng)站非常重要。 </p><p> 2.5.2從入鏈數(shù)量到 PageRank</p><p> 在PageRank提出之前,已經(jīng)有研究者提出利用網(wǎng)頁的入鏈數(shù)量來進行鏈接分析計算,這種入鏈方法假設(shè)一個網(wǎng)頁的入鏈越多,則該網(wǎng)頁越重要。早期的很多 搜索引擎也采納了入鏈數(shù)量作為鏈接分析方法,對于搜索
84、引擎效果提升也有較明顯的效果。 PageRank除了考慮到入鏈數(shù)量的影響,還參考了網(wǎng)頁質(zhì)量因素,兩者相結(jié)合獲得了更好的網(wǎng)頁重要性評價標準。</p><p> 利用以上兩個假設(shè),PageRank算法剛開始賦予每個網(wǎng)頁相同的重要性得分,通過迭代遞歸計算來更新每個頁面節(jié)點的PageRank得分,直到得分穩(wěn)定為止。 PageRank計算得出的結(jié)果是網(wǎng)頁的重要性評價,這和用戶輸入的查詢是沒有任何關(guān)系的,即算法是主題無關(guān)的
85、。假設(shè)有一個搜索引擎,其相似度計算函數(shù)不考慮內(nèi)容相似因素,完全采用PageRank來進行排序,那么這個搜索引擎的表現(xiàn)是搜索引擎對于任意不同的查詢請求,返回的結(jié)果都是相同的,即返回PageRank值最高的頁面。</p><p> 第三章 面向求職主題搜索引擎的需求分析</p><p> 3.1系統(tǒng)功能和目標</p><p> 這個系統(tǒng)主要面對想要在網(wǎng)絡(luò)上獲得求
86、職信息的人群。旨在幫助求職業(yè)人員對信息進行集中搜集、整理工作。求職人員可以通過該搜索引擎及時準確的搜集面試技巧,面試筆試經(jīng)驗,公司資料等求職幫助信息。</p><p> 系統(tǒng)主要設(shè)計目標如下:</p><p><b> ?。^高的查全率。</b></p><p><b> ?。^高的查準率。</b></p>
87、<p> ?。WC高性能。主要考慮查詢速度和對內(nèi)存的要求。</p><p> ?。WC系統(tǒng)的健壯性。</p><p><b> .可移植性。</b></p><p> ?。δ苣K化。各種功能模塊化設(shè)計,即為搜索引擎所用。</p><p> .多線程??梢蕴岣邫C器人的效率,便于并行處理和控制。</p
88、><p> ?。己玫膮?shù)配置。要盡可能的考慮到不同情況,如是否遵守RobotExclusion</p><p> 協(xié)議、是否自啟動、爬行時間、線程數(shù)等。</p><p> .友好、個性化的查詢界面。與用戶交流的界面友好,操作方便,具有個性化方 便用戶學習使用,具有使用方便的幫助功能。</p><p><b> 3.2 功能需求
89、</b></p><p> 本系統(tǒng)由主題抓取模塊、索引模塊、客戶端檢索模塊三部分構(gòu)成實現(xiàn)幫助求職人員尋找需要搜集面試技巧,面試筆試經(jīng)驗,公司資料等求職幫助信息等信息,并對對信息進行集中搜集、整理工作。</p><p> 3.2.1功能總體描述</p><p> 主題抓取模塊、索引模塊、客戶端檢索模塊三部分構(gòu)成。</p><p&g
90、t; 3.2.2 模塊功能描述</p><p><b> 主題抓取模塊:</b></p><p> 主題爬蟲訪問既定地址,不斷從網(wǎng)絡(luò)上下載與主題相關(guān)的類文本文件以及可以轉(zhuǎn)換為文本文件的文件,如文本文件、網(wǎng)頁文件、Word文檔、PDF文檔等,并將下載到的文件保存在本地的硬盤上。</p><p><b> 爬蟲工作用例圖</
91、b></p><p> 爬蟲工作原理用例描述:</p><p> Url解析器原理用例圖</p><p> Url解析器原理用例描述:</p><p><b> ?。?)過程描述:</b></p><p> .當爬蟲確定一個Url地址后,經(jīng)解析器分析后訪問該地址的主機.</p&
92、gt;<p><b> .下載該頁面</b></p><p><b> .解析該頁面</b></p><p> .處理頁面中的鏈接信息</p><p><b> .存儲該信息</b></p><p> 解析網(wǎng)頁中的URL的狀態(tài)圖</p>&
93、lt;p> URL的狀態(tài)圖的描述:</p><p> .狀態(tài)0:發(fā)現(xiàn)一個url</p><p> .狀態(tài)1:放進存儲列表</p><p> .狀態(tài)2:分析判斷Url是否符合要求</p><p> .狀態(tài)3:符合要求完成隊列,不符合要求拋棄隊列,錯誤房屋錯誤隊列。</p><p> .狀態(tài)4:完成Url
94、</p><p> 下載從等待隊列中得到的網(wǎng)頁,并將他送入運行隊列中。</p><p><b> 索引模塊:</b></p><p> 索引模塊將主題爬蟲收集的文件及類文件文檔進行處理,以便于有效查找的數(shù)據(jù)結(jié)構(gòu)進行組織,其中就包括了全文檢索索引的建立:用戶搜索服務(wù)模塊從用戶處獲得查詢請求,在數(shù)據(jù)庫中進行查找后將結(jié)果頁面返回給用戶。因此,查
95、詢模塊的效率取決于索引的組織情況,也決定了整個搜索引擎能否實現(xiàn)快速響應(yīng)。因此,必須對一索引進行高效組織,以實現(xiàn)整個搜索引擎的高效率。</p><p><b> 索引活動圖描述:</b></p><p> . 有一系列被索引文件</p><p> . 被索引文件經(jīng)過語法分析和語言處理形成一系列詞(Term)。</p>&l
96、t;p> . 經(jīng)過索引創(chuàng)建形成詞典和反向索引表。</p><p> . 通過索引存儲將索引寫入硬盤。</p><p> 3) 客戶端檢索模塊:</p><p> 客戶一般通過瀏覽器進行搜索,需要系統(tǒng)提供Web服務(wù)器,同時與索引數(shù)據(jù)庫進行連接??蛻粼跒g覽器中輸入查詢條件后,Web服務(wù)器接收到客戶的搜索條件后在索引數(shù)據(jù)庫中進行查詢、排列然后返回給客戶端
97、。</p><p><b> 搜索活動圖</b></p><p><b> 客戶端搜索順序圖</b></p><p> 3.3開發(fā)環(huán)境和運行系統(tǒng)</p><p> 為了實現(xiàn)本系統(tǒng),通過對現(xiàn)有的技術(shù)和應(yīng)用軟件的分析。本系統(tǒng)采用如下的開發(fā)環(huán)境:</p><p> 開發(fā)語
98、言主要采用Java語言開發(fā);</p><p> 應(yīng)用服務(wù)器采用Apache</p><p> Tomcat 5.5;</p><p> 全文檢索工具包采用Lucene 4.8(Jakarta Lucene是一套免.費的開放源代碼,由Apache Jakarta開發(fā));</p><p> 主題機器人程序采用開源crawler進行改進和開
99、發(fā);</p><p> 第四章 面向主題搜索引擎的設(shè)計</p><p> 4.1系統(tǒng)總體架構(gòu)設(shè)計</p><p> 4.2系統(tǒng)功能模塊設(shè)計</p><p> 4.2.1主題網(wǎng)絡(luò)爬蟲功能設(shè)計</p><p> 由于相關(guān)主題資源的規(guī)模相對整個因特網(wǎng)來說要小得多,也相對容易控制和掌握,所以主題機器人可以提供更精確的
100、搜索結(jié)果。但相對普通網(wǎng)絡(luò)爬蟲,主題網(wǎng)絡(luò)爬蟲還需要解決以下兩個主要問題:</p><p> 1)一個好的主題網(wǎng)咯爬蟲需要達到以下兩個要求:</p><p> .要有一個好的爬行策略,即決定下一步要爬行哪些網(wǎng)頁的策略。</p><p> .對于每個已下載的網(wǎng)頁,主題機器人需要判斷它與主題的相關(guān)性,用來指導以后的爬行過程。主題機器人應(yīng)盡量避免爬行主題不相關(guān)的和低質(zhì)量
101、的網(wǎng)頁。</p><p> 本論文中的主題機器人設(shè)計建立在通用機器人技術(shù)的基礎(chǔ)上,并對通用機器人進行功能上的擴充。為了保證網(wǎng)絡(luò)機器人采集的網(wǎng)頁能夠盡量向求職幫助信息主題靠攏,必須在采集過程中進行主題相關(guān)度分析,將與求職幫助信息主題相關(guān)度較低的網(wǎng)頁剔除,這樣就不會在下一步網(wǎng)頁采集過程中處理其中的超文本鏈。因為一個網(wǎng)頁的主題相關(guān)度如果很低,說明其該網(wǎng)頁很可能只是偶爾出現(xiàn)某些關(guān)鍵詞。而網(wǎng)頁的主題可能和求職幫助信息主題
102、關(guān)系不大,處理其中超文本鏈接也就沒太大的意義了,這也是主題搜索網(wǎng)絡(luò)機器人和通用機器人的根本區(qū)別。通用網(wǎng)絡(luò)機器人是根據(jù)設(shè)定的搜索深度,對所有鏈接進行處理,結(jié)果采集了大量無關(guān)的網(wǎng)頁,增加了許多不必要的工作量。</p><p><b> 2)初始種子的選擇</b></p><p> 由于該搜索引擎是面向求職幫助信息的,所以網(wǎng)絡(luò)機器人是面向求職幫助主題的,所以應(yīng)該選擇質(zhì)量
103、較高求職相關(guān)網(wǎng)站作為其初始種子URL集,否則網(wǎng)絡(luò)機器人無法有效地展開主題相關(guān)網(wǎng)頁的采集工作。比較有影響的求職網(wǎng)站有“中華英才網(wǎng)”、“招聘網(wǎng)”、“搜狐求職”、“前程無憂”、“中國國家人才網(wǎng)”、“高新技術(shù)人才網(wǎng)”等。</p><p> 4.2.2主題爬蟲類的設(shè)計</p><p> 4.3索引模塊的功能設(shè)計</p><p> 4.3.1索引模塊的功能的概述</
104、p><p> 一個搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。索引模塊將機器人收集的文檔進行處理,以便于有效查找的數(shù)據(jù)結(jié)構(gòu)進行組織,其中就包括了全文檢索索引的建立:查詢服務(wù)模塊從用戶處獲得查詢請求,進行查找后將結(jié)果頁面返回給用戶。其中,查詢模塊的效率取決于索引的組織情況,也直接決定了整個搜索引擎能否實現(xiàn)快速響應(yīng)。因此,必須對一索引進行高效組織,以實現(xiàn)整個搜索引擎的高效率。</p><p>
105、 4.3.2索引的類的設(shè)計</p><p> 4.4客戶端檢索模塊</p><p> 客戶一般通過瀏覽器進行查詢,這就需要系統(tǒng)提供Web服務(wù)器并且與索引數(shù)據(jù)庫進行連接??蛻粼跒g覽器中輸入查詢條件,Web服務(wù)器接收到客戶的查詢條件后在索引數(shù)據(jù)庫中進行查詢、排列然后返回給客戶端。</p><p><b> 4.5數(shù)據(jù)庫設(shè)計</b></
106、p><p> 4.5.1數(shù)據(jù)庫的pdm圖:</p><p> 4.5.2數(shù)據(jù)庫的描述</p><p> t_HtmlUrl保存了新的沒有被處理的URL:</p><p> t_UnVisit記錄了有待訪問的URL:</p><p> t_VisitUrl記錄了已訪問的URL的所有的信息:</p>&
107、lt;p> t_Text 記錄文本信息</p><p> 第五章 面向主題搜索引擎的實現(xiàn)</p><p> 5.1主題爬蟲的實現(xiàn):</p><p><b> 實現(xiàn)的核心代碼:</b></p><p> public String getFileNameByUrl(String url, String co
108、ntentType) {</p><p> // remove http://</p><p> url = url.substring(7);</p><p> // text/html類型</p><p> if (contentType.indexOf("html") != -1) {</p>
109、<p> url = url.replaceAll("[\\?/:*|<>\"]", "_") + ".html";</p><p> return url;</p><p><b> }</b></p><p> // 如application
110、/pdf類型</p><p><b> else {</b></p><p> return url.replaceAll("[\\?/:*|<>\"]", "_") + "."</p><p> + contentType.substring(conten
111、tType.lastIndexOf("/") + 1);</p><p><b> }</b></p><p><b> }</b></p><p> private void saveToLocal(byte[] data, String filePath) {</p><p
112、><b> try {</b></p><p> DataOutputStream out = new DataOutputStream(new FileOutputStream(</p><p> new File(filePath)));</p><p> for (int i = 0; i < data.length;
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向求職主題的搜索引擎
- 面向求職主題的搜索引擎
- 面向求職主題的搜索引擎畢業(yè)設(shè)計(論文)開題報告.doc
- 面向求職主題的搜索引擎畢業(yè)設(shè)計(文獻翻譯).doc
- 面向求職主題的搜索引擎畢業(yè)設(shè)計(文獻綜述).doc
- 全文搜索引擎的設(shè)計與實現(xiàn)-畢業(yè)論文
- 畢業(yè)論文---搜索引擎的研究與實現(xiàn)
- 全文搜索引擎的設(shè)計與實現(xiàn)-畢業(yè)論文
- 游戲搜索引擎 --搜索引擎demo系統(tǒng)中l(wèi)ucene索引的實現(xiàn)---畢業(yè)論文
- 面向求職主題的搜索引擎 (最終版).doc
- 游戲搜索引擎 --搜索引擎demo系統(tǒng)中l(wèi)ucene索引的實現(xiàn)---畢業(yè)論文
- 面向求職主題的搜索引擎 (最終版).doc
- 面向求職主題的搜索引擎畢業(yè)設(shè)計(論文)任務(wù)書--王震.doc
- 面向主題的垂直搜索引擎系統(tǒng)的設(shè)計與實現(xiàn).pdf
- 面向求職主題的搜索引擎(第二版).doc
- 面向求職主題的搜索引擎(第二版).doc
- 基于nutch+lucene搜索引擎的搭建--搜索引擎技術(shù)的相關(guān)設(shè)計與分析-畢業(yè)論文
- 畢業(yè)論文 搜索引擎研究
- 畢業(yè)論文范文——搜索引擎的研究與實現(xiàn)
- 畢業(yè)論文范文——搜索引擎的研究與實現(xiàn)
評論
0/150
提交評論