面向求職主題的搜索引擎的分析設(shè)計(jì)與實(shí)現(xiàn)【畢業(yè)論文】

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-12-10 格式：doc 頁數(shù)：43 大?。?84.40KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

面向求職主題的搜索引擎的分析設(shè)計(jì)與實(shí)現(xiàn)【畢業(yè)論文】_第1頁

已閱讀1頁，還剩42頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、　　本科畢業(yè)設(shè)計(jì)（論文）　　（20 屆）　　面向求職主題的搜索引擎的分析設(shè)計(jì)與實(shí)現(xiàn)　　目錄　　摘要2&l

2、t;p>　　Abstract4　　第一章引言6　　1.1 選題的背景及研究意義6　　1.2主題搜索引擎的發(fā)展?fàn)顩r及優(yōu)點(diǎn)7　　1.3求職主題搜索引擎的主要研究內(nèi)容8　　1.4

3、求職主題搜索引擎要達(dá)到的目標(biāo)8　　第二章求職搜索引擎的關(guān)鍵技術(shù)10　　2.1 網(wǎng)絡(luò)爬蟲10　　2.1.1網(wǎng)絡(luò)爬蟲的基本結(jié)構(gòu)及工作流程10　　2.1.2從爬蟲的角度對(duì)互聯(lián)網(wǎng)進(jìn)行劃分11　　2.1.3抓取策略11&l

4、t;/p>　　2.1.4更新策略12　　2.1.5分布式抓取系統(tǒng)結(jié)構(gòu)13　　2.2索引器14　　2.2.1建立索引14　　2.2.2搜索引擎的中文分詞技術(shù)15<p&g

5、t;　　2.3檢索器16　　2.4用戶接口16　　2.5排序算法17　　2.5.1PageRank 算法概述17　　2.5.2從入鏈數(shù)量到 PageRank17　　第三章面向求職

6、主題搜索引擎的需求分析19　　3.1系統(tǒng)功能和目標(biāo)19　　3.2 功能需求19　　3.2.1功能總體描述20　　3.2.2 模塊功能描述20　　3.3開發(fā)環(huán)境和運(yùn)行系統(tǒng)27

7、第四章面向主題搜索引擎的設(shè)計(jì)28　　4.1系統(tǒng)總體架構(gòu)設(shè)計(jì)28　　4.2系統(tǒng)功能模塊設(shè)計(jì)28　　4.2.1主題網(wǎng)絡(luò)爬蟲功能設(shè)計(jì)28　　4.2.2主題爬蟲類的設(shè)計(jì)29　　4.3索引模塊的功能設(shè)計(jì)30

8、　　4.3.1索引模塊的功能的概述30　　4.3.2索引的類的設(shè)計(jì)30　　4.5數(shù)據(jù)庫設(shè)計(jì)31　　4.5.1數(shù)據(jù)庫的pdm圖：31　　4.5.2數(shù)據(jù)庫的描述31　　第五章面向主題搜索引擎的實(shí)現(xiàn)3

9、3　　5.1主題爬蟲的實(shí)現(xiàn)：33　　5.2用戶界面的實(shí)現(xiàn)35　　5.3中文分詞的實(shí)現(xiàn)35　　第六章結(jié)論和展望37　　致謝39<

10、;b>　　參考文獻(xiàn)40　　摘要　　隨著信息化的高速發(fā)展，信息量正以指數(shù)規(guī)律迅猛增長，互聯(lián)網(wǎng)已經(jīng)成為人類最重要的海量信源，“信息迷航”和“信息過載”已經(jīng)成為日益嚴(yán)重的問題?；贗nternet的各類搜索引擎應(yīng)運(yùn)而生并得到了迅速發(fā)展。Google，百度等通用搜索引擎功能雖然非常強(qiáng)大，但

11、是當(dāng)使用它們來檢索某些特定專業(yè)的信息時(shí)，通用搜索引擎系統(tǒng)就有些力不從心，面向主題的搜索引擎是一種分類細(xì)致精確、更新及時(shí)的搜索引擎。隨著Internet信息的爆炸增長以及信息多元化的發(fā)展，主題搜索引擎正成為未來搜索引擎發(fā)展的重點(diǎn)與趨勢(shì)。　　本文就基于面向主題搜索引擎的，提出了一種基于Lucene面向主題搜索引擎實(shí)現(xiàn)方案，實(shí)現(xiàn)了求職幫助信息主題搜索引擎。本文的主要敘述過程如下：

12、　　首先，敘述了搜索引擎的發(fā)展背景和發(fā)展現(xiàn)狀及特點(diǎn)，回顧了搜索引擎的發(fā)　　展歷史，比較了通用搜索引擎和主題搜索引擎的區(qū)別，體現(xiàn)了主題搜索引擎在專　　業(yè)搜索方面的優(yōu)勢(shì)。　　其次，對(duì)面向主題搜索引擎的關(guān)鍵技術(shù)分三大模塊即：主題信息抓取、索引

13、　　和檢索進(jìn)行了深入分析和實(shí)現(xiàn)。簡(jiǎn)單的實(shí)現(xiàn)了基于Java的全文索引引擎工具包Lucene，分析了Lucene與傳統(tǒng)數(shù)據(jù)庫相比的不同之處，體現(xiàn)了利用Lucene進(jìn)行索引和檢索的高效性、準(zhǔn)確性。　　然后，基于以上關(guān)鍵技術(shù)，提出了求職幫助信息主題的搜索引擎設(shè)計(jì)方案。　　詳細(xì)介紹了基于Lucence的應(yīng)聘幫助信息主題搜索引擎的具體實(shí)現(xiàn)過程。

14、　　最后，對(duì)論文的各項(xiàng)工作進(jìn)行了總結(jié)，并指出了今后發(fā)展方向和進(jìn)一步的工　　作，以便以后不斷更新和完善?；贚ucene的求職幫助信息主題搜索引擎系統(tǒng)，保證了對(duì)求職幫助信息的完全收錄與及時(shí)更新，避免了強(qiáng)大的搜索噪音，提高了檢索效率，能快、全、準(zhǔn)地提供專題信息查詢。　　本論文的主要研究內(nèi)容：&

15、lt;p>　?。疚闹饕芯苛酥黝}搜索的網(wǎng)絡(luò)爬蟲。　　．對(duì)Apache Lucene全文索引引擎工具包進(jìn)行了深入剖析，及中文切分詞技術(shù)。　?。诜治隽酥黝}搜索引擎關(guān)后，提出了求職幫助信息主題的搜索引擎設(shè)計(jì)方案。　?。钊肫饰隽嗽谠O(shè)計(jì)實(shí)現(xiàn)中運(yùn)用的關(guān)鍵技術(shù)，并在剖析的基礎(chǔ)上進(jìn)行了擴(kuò)展及&

16、lt;p>　　二次開發(fā)，設(shè)計(jì)實(shí)現(xiàn)了基于Lucene的應(yīng)聘幫助主題搜索引擎。　　【關(guān)鍵詞】：網(wǎng)絡(luò)爬蟲、Lucene、信息索引、面向主題的搜索引擎　　Abstract　　With the rapid development of information technology

17、, the amount of information is growing at exponential law, the Internet has become the people.The most important data source, "getting lost in information" and "information overload" has become an inc

18、reasingly serious problem.Internet all kinds of search engines emerge as the times require and has obtained rapid development based on. Google, Baidu etc..Using a search engine function is very powerful, but when to use

19、them to retrieve specific pr　　Subject oriented search engine is a kind of precise classification, timely updated search engine. Along with the explosive growth of Internet information and the develop

20、ment of pluralistic information, search engine is becoming focus and trend of future search engine development.　　This paper is based on the subject oriented search engine, propose a Luccne topic Orie

21、nted Search Engine Implementation Based on, implement a job help info search engine. This paper mainly describes the process as follows:　　Firstly, this paper describes the development background and

22、the development status and characteristics of search engine, review of the search engine.Development history, the differences between the general search engine and search engine, embodies the theme search engine in the C

23、ollege Enterprise search advantage.　　Secondly, subject oriented search engine key technologies is divided into three modules: information crawling, indexing.And retrieval of in-depth analysis and imp

24、lementation. Simple realization of the Lucene full-text search engine toolkit based on Java, analyzes the Lucene difference compared with the traditional database, the high efficiency, accuracy for indexing and retrieval

25、 of the Lucene.　　Then, based on the above key technologies, proposes a search engine design scheme of job help info.Introduces the realization process of the Lucence of job help info search engine ba

26、sed on.　　Finally, the work of this thesis is summarized, and points out the future development direction and further work.　　For, in order to constantly update and improve the. Lu

27、cene job help info search engine system based on fully included, ensure the on job search help and update the information, to avoid the search for noise robust, improves the efficiency of retrieval, can quickly, accurate

28、ly, all provide special information query.　　The main research contents of this thesis:　　1 this paper mainly studies the network crawler topic search.　　2 on t

29、he Apache I_, a thorough analysis of uccne full-text search engine toolkit, word segmentation technology and Chinese.　　3 in the analysis of the topic search engine, search engine proposed design sche

30、me of job help info.　　4 in-depth analysis of the key technology used in the design and implementation, and the expansion and on the basis of the analysis　　Two times the developme

31、nt, design and implementation of search engine based on Lucene for help topics.　　[Keywords]: web crawler, Lucene, information indexing, subject oriented search engine　　第

32、一章引言　　1.1 選題的背景及研究意義　　隨著科技與時(shí)代的發(fā)展，Internet已經(jīng)成為我們學(xué)習(xí)和工作的重要工具，與我們的生活密不可分?；ヂ?lián)網(wǎng)上的信息數(shù)以億計(jì)，如何在這浩如煙海的世界中找到自己想要的信息已經(jīng)成為互聯(lián)網(wǎng)技術(shù)的一個(gè)非常重要的研究課題。近年來就業(yè)壓力越來越大，如何選擇更好的，適合自己的職位及如何為將要面臨的面試等做

33、準(zhǔn)備受到越來越多的關(guān)注。搜索引擎的問世，為我們快速、準(zhǔn)確、有效地獲取網(wǎng)絡(luò)信息資源提供了極大的幫助,是互聯(lián)網(wǎng)信息查詢的導(dǎo)航針，是溝通用戶與網(wǎng)絡(luò)信息的橋梁。但是，隨著Internet信息急劇膨脹以及信息多元化的發(fā)展，傳統(tǒng)搜索引擎采集索引查詢內(nèi)容不斷擴(kuò)大。這使搜索引擎面臨巨大的困難，而且越來越不能滿足主題用戶的需求。常見到這樣的情況：為了獲取數(shù)條相關(guān)信息，用戶不得不在大量的失效信息、甚至垃圾信息中費(fèi)力尋找。目前人們對(duì)搜索引擎的首要關(guān)注點(diǎn)已經(jīng)從

34、如何找到更多的信息轉(zhuǎn)向如何快速找到準(zhǔn)確、有用的信息。用戶迫切需要一個(gè)數(shù)據(jù)分類細(xì)致、準(zhǔn)確、全面、更新及時(shí)的面向主題的搜索引擎來獲取主題資源信息。　　這種情況下，主題搜索引擎應(yīng)運(yùn)而生并成為發(fā)展趨勢(shì)，是搜索引擎發(fā)展史上的一塊里程碑。主題搜索引擎保證了對(duì)某一領(lǐng)域信息的完全收錄與及時(shí)更新，避免了搜索時(shí)強(qiáng)大的“噪音”，提高了查詢效率。在提供專業(yè)信息方面有著其它檢索工具無法比擬的優(yōu)勢(shì)。主題搜索引擎具備有效的信

35、息采集策略，索引更新周期大大縮短，通常能在很短時(shí)間內(nèi)提供更新的網(wǎng)上專業(yè)領(lǐng)域信息查詢，甚至能在數(shù)小時(shí)內(nèi)更新查詢信息。主題搜索引擎面向某一特定的專業(yè)領(lǐng)域，專注于自己的特長和核心技術(shù)，保證了對(duì)該領(lǐng)域信息的完全收錄與及時(shí)更新。同時(shí)能夠把具有相同興趣點(diǎn)的人們集中在一個(gè)“主題社區(qū)”內(nèi)，通過及時(shí)集中提供各種專業(yè)資源查詢，避免了大量的搜索噪音，提高了查詢效率。在提供專業(yè)信息方面有著其它檢索工具無法比擬的優(yōu)勢(shì)。

36、　面對(duì)如此浩瀚的互聯(lián)網(wǎng)資源，搜索引擎為所有網(wǎng)上沖浪的用戶提供了一個(gè)入口。但是，隨著信息多元化的增長，千篇一律的給所有用戶提供同一個(gè)入口顯然己經(jīng)不能滿足特定用戶更深入的查詢需求。同時(shí)，在目前的硬件條件下，通用搜索引擎要及時(shí)更新以得到互聯(lián)網(wǎng)上較全面的信息是不太可能的。針對(duì)這種情況，需要一個(gè)面向主題的、對(duì)硬件要求低、數(shù)據(jù)全面深入、更新及時(shí)的專題搜索引擎。面向特定領(lǐng)域的搜索技術(shù)已經(jīng)成為近幾年來搜索領(lǐng)域里比較熱的研究方向，針對(duì)某一領(lǐng)域、某一特定人

37、群　　或某一特定需求建立的搜索引擎稱為主題搜索引擎。主題搜索引擎因針對(duì)性強(qiáng)、目標(biāo)明確和查準(zhǔn)率高而成為獲取專業(yè)或?qū)I(yè)信息的重要工具。面向求職主題搜索就是眾多主題研究方向之一。　　雖然面向求職的主題搜索已經(jīng)出現(xiàn)，但筆者注意到，在找工作過程中，面臨激烈的人才競(jìng)爭(zhēng)，除了廣泛尋找職位信息之外，及時(shí)準(zhǔn)確地搜集面試技巧、面試經(jīng)驗(yàn)，公司資料等求職幫助信息也顯得尤為重要，

38、特別是現(xiàn)在許多大公司實(shí)行多輪淘汰制，每輪采用不同的形式和內(nèi)容，所以知己知彼百戰(zhàn)不殆，在同等條件下獲得及時(shí)的相關(guān)信息也成為制勝的法寶，所以在深入分析各種搜索引擎基礎(chǔ)上，針對(duì)現(xiàn)有求職主題的不足，本論文提出了一個(gè)面向求職幫助信息的搜索引擎方案，并付之于實(shí)現(xiàn)，拋磚引玉，旨在對(duì)廣大求職者給予一定的幫助。　　1.2主題搜索引擎的發(fā)展?fàn)顩r及優(yōu)點(diǎn)　　面向特定領(lǐng)域的搜索

39、技術(shù)己經(jīng)成為近幾年來搜索領(lǐng)域里比較熱的研究方向，針對(duì)某一領(lǐng)域、某一特定人群或某一特定需求建立的搜索引擎稱為主題搜索引擎(Topic-specify Search Engine)。主題搜索引擎又稱為專題搜索引擎、專業(yè)搜索引擎、垂直搜索引擎。它們專門采集某一學(xué)科、某一主題、某一行業(yè)范圍的信息資源，并用更為詳細(xì)和專業(yè)的方法對(duì)信息資源進(jìn)行標(biāo)引和描述，且往往在信息組織時(shí)設(shè)計(jì)利用與該專業(yè)密切相關(guān)的方法技術(shù)。這種搜索引擎專注于自己的特長和核心技術(shù)，保

40、證了對(duì)該領(lǐng)域信息的完全收錄與及時(shí)更新，在提供專業(yè)信息方面有著大型通用搜索引擎無法比擬的優(yōu)勢(shì)，成為搜索引擎發(fā)展的一個(gè)新趨勢(shì)。它的服務(wù)對(duì)象通常是專業(yè)領(lǐng)域的研究人員。眾所周知，每個(gè)專業(yè)領(lǐng)域都有專有的詞匯和用語，主題搜索引擎使用與之相應(yīng)的索引技術(shù)和檢索語言，從而使在特定主題范圍內(nèi)的檢索效果優(yōu)于通用搜索引擎。主題搜索引擎因針對(duì)性強(qiáng)、目標(biāo)明確和查準(zhǔn)率高而成為獲取專業(yè)或?qū)I(yè)信息的重要工具。常見的主題搜索的研究包括面向法律專業(yè)領(lǐng)域的，面向新聞的，面向圖

41、片或歌曲等等。主題引擎有以下優(yōu)點(diǎn)：　　.只要搜集某一特定學(xué)科領(lǐng)域或特定專題的Interact信息資源即可；　　.能夠方便地進(jìn)行搜集主題和學(xué)科的自定義配置。　　.采集的學(xué)科領(lǐng)域小，信息量相對(duì)較少，從而容易建立高質(zhì)量、專業(yè)信息收錄全、能夠及時(shí)更新的索引數(shù)據(jù)庫。　　.只涉及某一

42、個(gè)或幾個(gè)領(lǐng)域，詞匯和用語的一詞、一字多義的可能性降低，而且利用專業(yè)詞表進(jìn)行規(guī)范和控制，從而大大提高查全率和查準(zhǔn)率。　　.信息采集量小，·網(wǎng)絡(luò)傳輸量小，有利于網(wǎng)絡(luò)帶寬的有效利用。　　.索引數(shù)據(jù)庫的規(guī)模小，有利于縮短查詢響應(yīng)時(shí)間，還可以采用復(fù)雜的查詢語法，提高用戶的準(zhǔn)確查詢精度。　　.數(shù)據(jù)規(guī)模的降低，可以節(jié)

43、省搜索引擎的投資成本，用普通的硬件投資即可建立高質(zhì)、高效的主題搜索引擎。　　1.3求職主題搜索引擎的主要研究內(nèi)容　　本論文研究的重點(diǎn)是設(shè)計(jì)并實(shí)現(xiàn)面向求職主題的搜索引擎——應(yīng)聘幫助信息搜索引擎。這個(gè)系統(tǒng)主要面對(duì)想要在網(wǎng)絡(luò)上獲得求職信息的人群。旨在幫助求職業(yè)人員對(duì)信息進(jìn)行集中搜集、整理工作。求職人員可以通過該搜索引擎及時(shí)準(zhǔn)確的搜集面試技巧，面試筆試經(jīng)驗(yàn)，公司

44、資料等求職幫助信息。所謂應(yīng)聘信息在本系統(tǒng)體現(xiàn)為比較具體的針對(duì)公司的面試和筆試經(jīng)歷的描述信息，該信息主題主要面向那些面臨職業(yè)選擇，要接受各大公司考驗(yàn)的學(xué)生和工作人員。之所以選擇該信息主題，是因?yàn)槲覀儗?duì)找工作經(jīng)歷的體會(huì)，當(dāng)接到某公司面試或筆試通知時(shí)，迫切想要在網(wǎng)絡(luò)上尋求相關(guān)經(jīng)驗(yàn)談以獲得幫助，或者想對(duì)公司的情況獲得深入了解，為了快速達(dá)到目的節(jié)省時(shí)間，設(shè)計(jì)一個(gè)關(guān)于面經(jīng)筆經(jīng)信息主題的搜索引擎就顯得尤為重要。

45、;　　1.4 求職主題搜索引擎要達(dá)到的目標(biāo)　　．較高的查全率。　?。^高的查準(zhǔn)率。　　．保證高性能。主要考慮查詢速度和對(duì)內(nèi)存的要求。　?。ＷC系統(tǒng)的健壯性。

46、;　　．可移植性。　?。δ苣K化。各種功能模塊化設(shè)計(jì)，即為搜索引擎所用 　?。嗑€程?？梢蕴岣邫C(jī)器人的效率，便于并行處理和控制。　?。己玫膮?shù)配置。要盡可能的考慮到不同情況，如是否遵守RobotExclusion 協(xié)議、是否自啟動(dòng)、爬行時(shí)間、線程數(shù)等。</p

47、>　?。押谩€(gè)性化的查詢界面。與用戶交流的界面友好，操作方便，具有個(gè)性化方便用戶學(xué)習(xí)使用，具有使用方便的幫助功能。　　第二章求職搜索引擎的關(guān)鍵技術(shù)　　2.1 網(wǎng)絡(luò)爬蟲　　網(wǎng)絡(luò)爬蟲是捜索引擎抓取系統(tǒng)的重要組成部分。爬蟲的主要目的是將互聯(lián)網(wǎng)上的網(wǎng)

48、頁下載到本地形成一個(gè)或聯(lián)網(wǎng)內(nèi)容的鏡像備份。　　2.1.1網(wǎng)絡(luò)爬蟲的基本結(jié)構(gòu)及工作流程　　網(wǎng)絡(luò)爬蟲的基本工作流程如下：　　1）首先選取一部分精心挑選的種子URL；　　2）將這些URL放入待抓取URL隊(duì)列；　　3）從待抓取URL隊(duì)列中

49、取出待抓取在URL，解析DNS，并且得到主機(jī)的ip，并將URL對(duì)應(yīng)的網(wǎng)頁下載下來，存儲(chǔ)進(jìn)已下載網(wǎng)頁庫中。此外，將這些URL放進(jìn)已抓取URL隊(duì)列。　　4）分析已抓取URL隊(duì)列中的URL，分析其中的其他URL，并且將URL放入待抓取URL隊(duì)列，從而進(jìn)入下一個(gè)循環(huán)。　　2.1.2從爬蟲的角度對(duì)互聯(lián)網(wǎng)進(jìn)行劃分　　可以將互

50、聯(lián)網(wǎng)的所有頁面分為五個(gè)部分：　　1）已下載未過期網(wǎng)頁　　2）已下載已過期網(wǎng)頁：抓取到的網(wǎng)頁實(shí)際上是互聯(lián)網(wǎng)內(nèi)容的一個(gè)鏡像與備份，互聯(lián)網(wǎng)是動(dòng)態(tài)變化的，一部分互聯(lián)網(wǎng)上的內(nèi)容已經(jīng)發(fā)生了變化，這時(shí)，這部分抓取到的網(wǎng)頁就已經(jīng)過期了。　　3）待下載網(wǎng)頁：也就是待抓取URL隊(duì)列中的那些頁面

51、;　　4）可知網(wǎng)頁：還沒有抓取下來，也沒有在待抓取URL隊(duì)列中，但是可以通過對(duì)已抓取頁面或者待抓取URL對(duì)應(yīng)頁面進(jìn)行分析獲取到的URL，認(rèn)為是可知網(wǎng)頁。　　5）還有一部分網(wǎng)頁，為不可知網(wǎng)頁，爬蟲是無法直接抓取下載的。　　2.1.3抓取策略　　在爬蟲系統(tǒng)中，待抓取URL隊(duì)列是很

52、重要的一部分。待抓取URL隊(duì)列中的URL以什么樣的順序排列也是一個(gè)很重要的問題，因?yàn)檫@涉及到先抓取那個(gè)頁面，后抓取哪個(gè)頁面。而決定這些URL排列順序的方法，叫做抓取策略。下面重點(diǎn)介紹幾種常見的抓取策略：　　1）深度優(yōu)先遍歷策略　　深度優(yōu)先遍歷策略是指網(wǎng)絡(luò)爬蟲會(huì)從起始頁開始，一個(gè)鏈接一個(gè)鏈接跟蹤下去，處理完這條線路之后再轉(zhuǎn)入下一個(gè)起始頁，繼續(xù)跟蹤鏈接。&l

53、t;/p>　　2）寬度優(yōu)先遍歷策略　　寬度優(yōu)先遍歷策略的基本思路是，將新下載網(wǎng)頁中發(fā)現(xiàn)的鏈接直接插入待抓取URL隊(duì)列的末尾。也就是指網(wǎng)絡(luò)爬蟲會(huì)先抓取起始網(wǎng)頁中鏈接的所有網(wǎng)頁，然后再選擇其中的一個(gè)鏈接網(wǎng)頁，繼續(xù)抓取在此網(wǎng)頁中鏈接的所有網(wǎng)頁。還是以上面的圖為例：　　遍歷路徑：A-B-C-D-E-F G H I

54、　　3）反向鏈接數(shù)策略　　反向鏈接數(shù)是指一個(gè)網(wǎng)頁被其他網(wǎng)頁鏈接指向的數(shù)量。反向鏈接數(shù)表示的是一個(gè)網(wǎng)頁的內(nèi)容受到其他人的推薦的程度。因此，很多時(shí)候搜索引擎的抓取系統(tǒng)會(huì)使用這個(gè)指標(biāo)來評(píng)價(jià)網(wǎng)頁的重要程度，從而決定不同網(wǎng)頁的抓取先后順序。　　在真實(shí)的網(wǎng)絡(luò)環(huán)境中，由于廣告鏈接、作弊鏈接的存在，反向鏈接數(shù)不能

55、完全等他我那個(gè)也的重要程度。因此，搜索引擎往往考慮一些可靠的反向鏈接數(shù)。　　4）算法策略　　本文算法借鑒了PageRank算法的思想：對(duì)于已經(jīng)下載的網(wǎng)頁，連同待抓取URL隊(duì)列中的URL，形成網(wǎng)頁集合，計(jì)算每個(gè)頁面的 PageRank值，計(jì)算完之后，將待抓取URL隊(duì)列中的URL按照PageRank值的大小排列，并按照該

56、順序抓取頁面。　　5）OPIC策略策略　　該算法實(shí)際上也是對(duì)頁面進(jìn)行一個(gè)重要性打分。在算法開始前，給所有頁面一個(gè)相同的初始現(xiàn)金（cash）。當(dāng)下載了某個(gè)頁面P之后，將P的現(xiàn)金分?jǐn)偨o所有從P中分析出的鏈接，并且將P的現(xiàn)金清空。對(duì)于待抓取URL隊(duì)列中的所有頁面按照現(xiàn)金數(shù)進(jìn)行排序。　　6）大站優(yōu)先策略

57、　　對(duì)于待抓取URL隊(duì)列中的所有網(wǎng)頁，根據(jù)所屬的網(wǎng)站進(jìn)行分類。對(duì)于待下載頁面數(shù)多的網(wǎng)站，優(yōu)先下載。這個(gè)策略也因此叫做大站優(yōu)先策略。 　　2.1.4更新策略　　互聯(lián)網(wǎng)是實(shí)時(shí)變化的，具有很強(qiáng)的動(dòng)態(tài)性。網(wǎng)頁更新策略主要是決定何時(shí)更新之前已經(jīng)下載過的頁面。常見的更

58、新策略又以下三種：　　1）歷史參考策略　　顧名思義，根據(jù)頁面以往的歷史更新數(shù)據(jù)，預(yù)測(cè)該頁面未來何時(shí)會(huì)發(fā)生變化。一般來說，是通過泊松過程進(jìn)行建模進(jìn)行預(yù)測(cè)。　　2）用戶體驗(yàn)策略盡管搜索引擎針對(duì)于某個(gè)查詢條件能夠返回?cái)?shù)量巨大的結(jié)果，但是用戶往往只關(guān)注前幾頁結(jié)果。因此，抓取

59、系統(tǒng)可以優(yōu)先更新那些現(xiàn)實(shí)在查詢結(jié)果前幾頁中的網(wǎng)頁，而后再更新那些后面的網(wǎng)頁。這種更新策略也是需要用到歷史信息的。用戶體驗(yàn)策略保留網(wǎng)頁的多個(gè)歷史版本，并且根據(jù)過去每次內(nèi)容變化對(duì)搜索質(zhì)量的影響，得出一個(gè)平均值，用這個(gè)值作為決定何時(shí)重新抓取的依據(jù)。 3）.聚類抽樣策略　　前面提到的兩種更新策略都有一個(gè)前提：需要網(wǎng)頁的歷史信息。這樣就存在兩個(gè)問題：第一，系統(tǒng)要是為每個(gè)系統(tǒng)保存多個(gè)版本的歷史信

60、息，無疑增加了很多的系統(tǒng)負(fù)擔(dān)；第二，要是新的網(wǎng)頁完全沒有歷史信息，就無法確定更新策略。　　這種策略認(rèn)為，網(wǎng)頁具有很多屬性，類似屬性的網(wǎng)頁，可以認(rèn)為其更新頻率也是類似的。要計(jì)算某一個(gè)類別網(wǎng)頁的更新頻率，只需要對(duì)這一類網(wǎng)頁抽樣，以他們的更新周期作為整個(gè)類別的更新周期。 　　2.1.5分布式抓取系統(tǒng)結(jié)構(gòu)　　一般

61、來說，抓取系統(tǒng)需要面對(duì)的是整個(gè)互聯(lián)網(wǎng)上數(shù)以億計(jì)的網(wǎng)頁。單個(gè)抓取程序不可能完成這樣的任務(wù)。往往需要多個(gè)抓取程序一起來處理。一般來說抓取系統(tǒng)往往是一個(gè)分布式的三層結(jié)構(gòu)。如圖所示：　　最下一層是分布在不同地理位置的數(shù)據(jù)中心，在每個(gè)數(shù)據(jù)中心里有若干臺(tái)抓取服務(wù)器，而每臺(tái)抓取服務(wù)器上可能部署了若干套爬蟲程序。這就構(gòu)成了一個(gè)基本的分布式抓取系統(tǒng)。對(duì)于一個(gè)數(shù)據(jù)中心內(nèi)的不同抓去服務(wù)器，協(xié)同工作的方式有幾種：<

62、;/p>　　1）主從式（Master-Slave）　　對(duì)于主從式而言，有一臺(tái)專門的Master服務(wù)器來維護(hù)待抓取URL隊(duì)列，它負(fù)責(zé)每次將URL分發(fā)到不同的Slave服務(wù)器，而Slave服務(wù)器則負(fù)責(zé)實(shí) 際的網(wǎng)頁下載工作。Master服務(wù)器除了維護(hù)待抓取URL隊(duì)列以及分發(fā)URL之外，還要負(fù)責(zé)調(diào)解各個(gè)Slave服務(wù)器的負(fù)載情況。以免某些Slave服務(wù)器過于清閑或者勞累。

63、這種模式下，Master往往容易成為系統(tǒng)瓶頸。　　2）對(duì)等式（Peer to Peer）　　在這種模式下，所有的抓取服務(wù)器在分工上沒有不同。每一臺(tái)抓取服務(wù)器都可以從待抓取在URL隊(duì)列中獲取URL，然后對(duì)該URL的主域名的hash值H，然后計(jì)算H mod m（其中m是服務(wù)器的數(shù)量，以上圖為例，m為3），計(jì)算得到的數(shù)就是處理該URL的主機(jī)編號(hào)。</p

64、>　　舉例：假設(shè)對(duì)于URL www.baidu.com，計(jì)算器hash值H=8，m=3，則H mod m=2，因此由編號(hào)為2的服務(wù)器進(jìn)行該鏈接的抓取。假設(shè)這時(shí)候是0號(hào)服務(wù)器拿到這個(gè)URL，那么它將該URL轉(zhuǎn)給服務(wù)器2，由服務(wù)器2進(jìn)行抓取。　　一致性哈希將URL的主域名進(jìn)行哈希運(yùn)算，映射為一個(gè)范圍在0-232之間的某個(gè)數(shù)。而將這個(gè)范圍平均的分配給m臺(tái)服務(wù)器，根據(jù)URL主

65、域名哈希運(yùn)算的值所處的范圍判斷是哪臺(tái)服務(wù)器來進(jìn)行抓取。　　如果某一臺(tái)服務(wù)器出現(xiàn)問題，那么本該由該服務(wù)器負(fù)責(zé)的網(wǎng)頁則按照順時(shí)針順延，由下一臺(tái)服務(wù)器進(jìn)行抓取。這樣的話，及時(shí)某臺(tái)服務(wù)器出現(xiàn)問題，也不會(huì)影響其他的工作。　　2.2索引器　　2.2.1建立索引</

66、b>　　索引器的功能是對(duì)搜索器所搜索的信息進(jìn)行分析處理，從中抽取出索引項(xiàng)，用于表示文檔以及生成文檔庫的索引表。索引項(xiàng)有元數(shù)據(jù)索引項(xiàng)和內(nèi)容索引項(xiàng)兩種: 元數(shù)據(jù)索引項(xiàng)與文檔的語意內(nèi)容無關(guān)，如作者名、URL、更新時(shí)間、編碼、長度、鏈接流行度等等; 內(nèi)容索引項(xiàng)是用來反映文檔內(nèi)容的，如關(guān)鍵詞及其權(quán)重、短語、單字等等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng)（或稱短語索引項(xiàng)）兩種。單索引項(xiàng)對(duì)于英文來講

67、是英語單詞，比較容易提取，因?yàn)閱卧~之間有天然的分隔符（空格）; 對(duì)于中文等連續(xù)書寫的語言，必須進(jìn)行詞語的切分。在搜索引擎中，一般要給單索引項(xiàng)賦予一個(gè)權(quán)值，以表示該索引項(xiàng)對(duì)文檔的區(qū)分度，同時(shí)用來計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語言學(xué)法。　　為了快速查找到特定的信息，建立索引數(shù)據(jù)庫是一個(gè)常用的方法，即將文檔表示為一種便于檢索的方

68、式并存儲(chǔ)在索引數(shù)據(jù)庫中。索引數(shù)據(jù)庫的格式是一種依賴于索引機(jī)制和算法的特殊數(shù)據(jù)存儲(chǔ)格式。索引的質(zhì)量是Web信息檢索系統(tǒng)成功的關(guān)鍵因素之一。一個(gè)好的索引模型應(yīng)該易于實(shí)現(xiàn)和維護(hù)、檢索速度快、空間需求低。搜索引擎普遍借鑒了傳統(tǒng)信息檢索中的索引模型，包括倒排文檔、矢量空間模型、概率模型等。例如在矢量空間索引模型中，每個(gè)文檔d都表示為一個(gè)范化矢量 V(d)=(t1,w1 (d)…ti,w1(d)…tn,wn(d))。其中ti為詞條項(xiàng)，wi(d)

69、為ti在d中的權(quán)值，一般被定義為ti在d中出現(xiàn)頻率tfi(d)的函數(shù)。　　索引器的輸出是索引表，它一般使用倒排形式（Inversion List），即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能記錄索引項(xiàng)在文檔中出現(xiàn)的位置，以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系（proximity）。索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí)，必須實(shí)現(xiàn)實(shí)時(shí)索引（Instant Indexing），

70、否則就無法跟上信息量急劇增加的速度。索引算法對(duì)索引器的性能（如大規(guī)模峰值查詢時(shí)的響應(yīng)速度）有很大的影響。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。　　2.2.2搜索引擎的中文分詞技術(shù)　　中文自動(dòng)分詞是網(wǎng)頁分析的基礎(chǔ)。在網(wǎng)頁分析的過程中，中文與英文的處理方式是不同的，這是因?yàn)橹形男畔⑴c英文信息有一個(gè)明顯的差別: 英文單詞之間有空格，而中文文本中詞

71、與詞之間沒有分割符。這就要求在對(duì)中文網(wǎng)頁進(jìn)行分析之前，先要將網(wǎng)頁中的句子切割成一個(gè)個(gè)的詞的序列，這就是中文分詞。中文自動(dòng)分詞涉及到許多自然語言處理技術(shù)和評(píng)價(jià)標(biāo)準(zhǔn)，在搜索引擎中，我們主要關(guān)心中文自動(dòng)分詞的速度和準(zhǔn)確度。分詞準(zhǔn)確性對(duì)搜索引擎來說十分重要，但如果分詞速度太慢，即使準(zhǔn)確性再高，對(duì)于搜索引擎來說也是不可用的，因?yàn)樗阉饕嫘枰幚頂?shù)以億計(jì)的網(wǎng)頁，如果分詞耗用的時(shí)間過長，會(huì)嚴(yán)重影響搜索引擎內(nèi) 容更新的速度。因此，搜索引擎對(duì)分詞的準(zhǔn)

72、確性和速度都提出了很高的要求。　　目前，中文自動(dòng)分詞比較成熟的技術(shù)是基于分詞詞典的機(jī)械分詞方法。這種方法是按照一定的策略將要分析的漢字串與詞典中的詞條進(jìn)行匹配。根據(jù)匹配策略的不同，機(jī)械分詞方法又有如下幾種算法: 正向最大匹配算法、逆向最大匹配算法、最少分詞算法等。這種方法的優(yōu)點(diǎn)是分詞的速度快，準(zhǔn)確度有一定的保證，但對(duì)未登錄詞的處理效果較差。實(shí)驗(yàn)結(jié)果表明: 正向最大匹配的錯(cuò)誤率為1/169左右，

73、逆向最大匹配的錯(cuò)誤率為1/245左右。另一種比較常用的中文自動(dòng)分詞方法是基于統(tǒng)計(jì)的分詞方法，這種方法是對(duì)語料中的字組頻度進(jìn)行統(tǒng)計(jì)，不需要切分詞典，因此也稱為無詞典分詞方法。但該方法經(jīng)常把不是詞的常用字組當(dāng)成詞，對(duì)常用詞的識(shí)別精度較差，時(shí)空開銷也比較大。在搜索引擎領(lǐng)域的實(shí)際應(yīng)用中，一般將機(jī)械分詞方法與統(tǒng)計(jì)分詞方法相結(jié)合，先進(jìn)行串匹配分詞，然后使用統(tǒng)計(jì)方法識(shí)別一些未登錄的新詞，這樣既發(fā)揮了匹配分詞速度快、效率高的優(yōu)勢(shì)，又利用了統(tǒng)計(jì)分詞

74、中新詞自動(dòng)識(shí)別和自動(dòng)消除分詞歧義的特點(diǎn)。　　分詞詞典是影響中文自動(dòng)分詞的一個(gè)重要因素，其規(guī)模一般在6萬條詞左右，詞典太大或太小都是不合適的; 辭典太小，有些詞切分不出來，辭典太大，切分過程中起義現(xiàn)象將大大增加，同樣影響分詞的精度。因此，分詞詞典中詞條的選擇是非常嚴(yán)格的。對(duì)于不斷出現(xiàn)新詞的網(wǎng)絡(luò)領(lǐng)域，僅僅使用6萬條詞左右的分詞詞典是不夠的，但隨意向分詞詞典中加入新詞將導(dǎo)致分詞精度下降，一般的解決方

75、法是使用輔助詞典，其規(guī)模在50萬詞條左右。另外，中文自動(dòng)分詞的難點(diǎn)在于分詞歧義的處理和未登錄詞的識(shí)別，如何處理這兩個(gè)問題一直是該領(lǐng)域研究的熱點(diǎn)。　　目前，中文自動(dòng)分詞技術(shù)在搜索引擎中已經(jīng)得到廣泛應(yīng)用，分詞準(zhǔn)確度已經(jīng)達(dá)到96%以上，但是在對(duì)大規(guī)模網(wǎng)頁進(jìn)行分析處理的時(shí)候，現(xiàn)有的中文自動(dòng)分詞技術(shù)還存在許多不足，例如上面提到的歧義問題和未登錄詞的處理問題等。因此，國內(nèi)外的科研院校，如北大、清華、中科

76、院、北京語言學(xué)院、東北大學(xué)、IBM研究院、微軟中國研究院等都一直關(guān)注并研究中文自動(dòng)分詞技術(shù)，這主要是因?yàn)榫W(wǎng)絡(luò)上的中文信息越來越多，對(duì)網(wǎng)絡(luò)上的中文信息的處理必將成為一個(gè)巨大的產(chǎn)業(yè)和廣闊的市場(chǎng)，存在無限的商機(jī)。但是，中文自動(dòng)分詞技術(shù)要想更好地服務(wù)于網(wǎng)絡(luò)中文信息的處理并形成產(chǎn)品，還要在基礎(chǔ)研究方面和系統(tǒng)的集成方面做許多工作。　　2.3檢索器

77、　　檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓熘锌焖贆z出文檔，進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià)，對(duì)將要輸出的結(jié)果進(jìn)行排序，并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型等多種，可以查詢到文本信息中的任意字詞，無論出現(xiàn)在標(biāo)題還是正文中。　　檢索器從索引中找出與用戶查詢請(qǐng)求相關(guān)的文檔，采用與分析索引文檔相識(shí)的方法來處理用戶查詢請(qǐng)求。如在

78、矢量空間索引模型中，用戶查詢q首先被表示為一個(gè)范化矢量V(q)=(t1,w1(q); …; ti,wi(q); …; tn,wn(q))，然后按照某種方法來計(jì)算用戶查詢與索引數(shù)據(jù)庫中每個(gè)文檔之間的相關(guān)度，而相關(guān)度可以表示為查詢矢量V(q)與文檔矢量V(d)之間的夾角余弦，最后將相關(guān)度大于閥值的所有文檔按照相關(guān)度遞減的順序排列并返還給用戶。當(dāng)然搜索引擎的相關(guān)度判斷并不一定與用戶的需求完全吻合。

79、　　2.4用戶接口　　用戶接口的作用是為用戶提供可視化的查詢輸入和結(jié)果輸出界面，方便用戶輸入查詢條件、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制等，其主要目的是方便用戶使用搜索引擎，高效率、多方式地從搜索引擎中得到有效的信息。用戶接口的設(shè)計(jì)和實(shí)現(xiàn)必須基于人機(jī)交互的理論和方法，以適應(yīng)人類的思維和使用習(xí)慣。　　在查詢界面中，

80、用戶按照搜索引擎的查詢語法制定待檢索詞條及各種簡(jiǎn)單或高級(jí)檢索條件。簡(jiǎn)單接口只提供用戶輸入查詢串的文本框，復(fù)雜接口可以讓用戶對(duì)查詢條件進(jìn)行限制，如邏輯運(yùn)算（與、或、非）、相近關(guān)系（相鄰、NEAR）、域名范圍（如edu、com）、出現(xiàn)位置（如標(biāo)題、內(nèi)容）、時(shí)間信息、長度信息等等。目前一些公司和機(jī)構(gòu)正在考慮制定查詢選項(xiàng)的標(biāo)準(zhǔn)。　　在查詢輸出界面中，搜索引擎將檢索結(jié)果展現(xiàn)為一個(gè)線性的文檔列表，其中包

81、含了文檔的標(biāo)題、摘要、快照和超鏈等信息。由于檢索結(jié)果中相關(guān)文檔和不相關(guān)文檔相互混雜，用戶需要逐個(gè)瀏覽以找出所需文檔　　2.5排序算法　　2.5.1PageRank 算法概述　　PageRank是用來標(biāo)識(shí)網(wǎng)頁的等級(jí)/重要性的一種方法，是Google用來衡量一個(gè)網(wǎng)站的好壞的唯一標(biāo)

82、準(zhǔn)。在揉合了諸如Title標(biāo)識(shí)和 Keywords標(biāo)識(shí)等所有其它因素之后，通過PageRank來調(diào)整結(jié)果，使那些更具“等級(jí)/重要性”的網(wǎng)頁在搜索結(jié)果中另網(wǎng)站排名獲得提升，從而提高搜索結(jié)果的相關(guān)性和質(zhì)量。其級(jí)別從0到10級(jí)，10級(jí)為滿分。PR值越高說明該網(wǎng)頁越受歡迎（越重要）。例如：一個(gè)PR值為1的網(wǎng)站表明這個(gè) 網(wǎng)站不太具有流行度，而PR值為7到10則表明這個(gè)網(wǎng)站非常受歡迎（或者說極其重要）。一般PR值達(dá)到4，就算是一個(gè)不錯(cuò)的網(wǎng)站了。G

83、oogle把自己的網(wǎng)站的PR值定到10，這說明Google這個(gè)網(wǎng)站是非常受歡迎的，也可以說這個(gè)網(wǎng)站非常重要。 　　2.5.2從入鏈數(shù)量到 PageRank　　在PageRank提出之前，已經(jīng)有研究者提出利用網(wǎng)頁的入鏈數(shù)量來進(jìn)行鏈接分析計(jì)算，這種入鏈方法假設(shè)一個(gè)網(wǎng)頁的入鏈越多，則該網(wǎng)頁越重要。早期的很多搜索引擎也采納了入鏈數(shù)量作為鏈接分析方法，對(duì)于搜索

84、引擎效果提升也有較明顯的效果。 PageRank除了考慮到入鏈數(shù)量的影響，還參考了網(wǎng)頁質(zhì)量因素，兩者相結(jié)合獲得了更好的網(wǎng)頁重要性評(píng)價(jià)標(biāo)準(zhǔn)。　　利用以上兩個(gè)假設(shè)，PageRank算法剛開始賦予每個(gè)網(wǎng)頁相同的重要性得分，通過迭代遞歸計(jì)算來更新每個(gè)頁面節(jié)點(diǎn)的PageRank得分，直到得分穩(wěn)定為止。 PageRank計(jì)算得出的結(jié)果是網(wǎng)頁的重要性評(píng)價(jià)，這和用戶輸入的查詢是沒有任何關(guān)系的，即算法是主題無關(guān)的

85、。假設(shè)有一個(gè)搜索引擎，其相似度計(jì)算函數(shù)不考慮內(nèi)容相似因素，完全采用PageRank來進(jìn)行排序，那么這個(gè)搜索引擎的表現(xiàn)是搜索引擎對(duì)于任意不同的查詢請(qǐng)求，返回的結(jié)果都是相同的，即返回PageRank值最高的頁面。　　第三章面向求職主題搜索引擎的需求分析　　3.1系統(tǒng)功能和目標(biāo)　　這個(gè)系統(tǒng)主要面對(duì)想要在網(wǎng)絡(luò)上獲得求

86、職信息的人群。旨在幫助求職業(yè)人員對(duì)信息進(jìn)行集中搜集、整理工作。求職人員可以通過該搜索引擎及時(shí)準(zhǔn)確的搜集面試技巧，面試筆試經(jīng)驗(yàn)，公司資料等求職幫助信息。　　系統(tǒng)主要設(shè)計(jì)目標(biāo)如下：　　．較高的查全率。　?。^高的查準(zhǔn)率。

87、　?。ＷC高性能。主要考慮查詢速度和對(duì)內(nèi)存的要求。　?。ＷC系統(tǒng)的健壯性。　　．可移植性。　?。δ苣K化。各種功能模塊化設(shè)計(jì)，即為搜索引擎所用。　?。嗑€程?？梢蕴岣邫C(jī)器人的效率，便于并行處理和控制。</p

88、>　　．良好的參數(shù)配置。要盡可能的考慮到不同情況，如是否遵守RobotExclusion　　協(xié)議、是否自啟動(dòng)、爬行時(shí)間、線程數(shù)等。　　．友好、個(gè)性化的查詢界面。與用戶交流的界面友好，操作方便，具有個(gè)性化方便用戶學(xué)習(xí)使用，具有使用方便的幫助功能。　　3.2 功能需求

89、　　本系統(tǒng)由主題抓取模塊、索引模塊、客戶端檢索模塊三部分構(gòu)成實(shí)現(xiàn)幫助求職人員尋找需要搜集面試技巧，面試筆試經(jīng)驗(yàn)，公司資料等求職幫助信息等信息，并對(duì)對(duì)信息進(jìn)行集中搜集、整理工作。　　3.2.1功能總體描述　　主題抓取模塊、索引模塊、客戶端檢索模塊三部分構(gòu)成。<p&g

90、t;　　3.2.2 模塊功能描述　　主題抓取模塊：　　主題爬蟲訪問既定地址，不斷從網(wǎng)絡(luò)上下載與主題相關(guān)的類文本文件以及可以轉(zhuǎn)換為文本文件的文件，如文本文件、網(wǎng)頁文件、Word文檔、PDF文檔等，并將下載到的文件保存在本地的硬盤上。　　爬蟲工作用例圖</

91、b>　　爬蟲工作原理用例描述：　　Url解析器原理用例圖　　Url解析器原理用例描述：　?。?）過程描述：　　.當(dāng)爬蟲確定一個(gè)Url地址后，經(jīng)解析器分析后訪問該地址的主機(jī).</p&

92、gt;　　.下載該頁面　　.解析該頁面　　.處理頁面中的鏈接信息　　.存儲(chǔ)該信息　　解析網(wǎng)頁中的URL的狀態(tài)圖&

93、lt;p>　　URL的狀態(tài)圖的描述：　　.狀態(tài)0：發(fā)現(xiàn)一個(gè)url　　.狀態(tài)1：放進(jìn)存儲(chǔ)列表　　.狀態(tài)2：分析判斷Url是否符合要求　　.狀態(tài)3：符合要求完成隊(duì)列，不符合要求拋棄隊(duì)列，錯(cuò)誤房屋錯(cuò)誤隊(duì)列。　　.狀態(tài)4：完成Url

94、　　下載從等待隊(duì)列中得到的網(wǎng)頁，并將他送入運(yùn)行隊(duì)列中。　　索引模塊：　　索引模塊將主題爬蟲收集的文件及類文件文檔進(jìn)行處理，以便于有效查找的數(shù)據(jù)結(jié)構(gòu)進(jìn)行組織，其中就包括了全文檢索索引的建立：用戶搜索服務(wù)模塊從用戶處獲得查詢請(qǐng)求，在數(shù)據(jù)庫中進(jìn)行查找后將結(jié)果頁面返回給用戶。因此，查

95、詢模塊的效率取決于索引的組織情況，也決定了整個(gè)搜索引擎能否實(shí)現(xiàn)快速響應(yīng)。因此，必須對(duì)一索引進(jìn)行高效組織，以實(shí)現(xiàn)整個(gè)搜索引擎的高效率。　　索引活動(dòng)圖描述：　　. 有一系列被索引文件　　. 被索引文件經(jīng)過語法分析和語言處理形成一系列詞(Term)。&l

96、t;p>　　. 經(jīng)過索引創(chuàng)建形成詞典和反向索引表。　　. 通過索引存儲(chǔ)將索引寫入硬盤。　　3）客戶端檢索模塊：　　客戶一般通過瀏覽器進(jìn)行搜索，需要系統(tǒng)提供Web服務(wù)器，同時(shí)與索引數(shù)據(jù)庫進(jìn)行連接?？蛻粼跒g覽器中輸入查詢條件后，Web服務(wù)器接收到客戶的搜索條件后在索引數(shù)據(jù)庫中進(jìn)行查詢、排列然后返回給客戶端

97、。　　搜索活動(dòng)圖　　客戶端搜索順序圖　　3.3開發(fā)環(huán)境和運(yùn)行系統(tǒng)　　為了實(shí)現(xiàn)本系統(tǒng)，通過對(duì)現(xiàn)有的技術(shù)和應(yīng)用軟件的分析。本系統(tǒng)采用如下的開發(fā)環(huán)境：　　開發(fā)語

98、言主要采用Java語言開發(fā)；　　應(yīng)用服務(wù)器采用Apache　　Tomcat 5．5；　　全文檢索工具包采用Lucene 4.8(Jakarta Lucene是一套免．費(fèi)的開放源代碼，由Apache Jakarta開發(fā))；　　主題機(jī)器人程序采用開源crawler進(jìn)行改進(jìn)和開

99、發(fā)；　　第四章面向主題搜索引擎的設(shè)計(jì)　　4.1系統(tǒng)總體架構(gòu)設(shè)計(jì)　　4.2系統(tǒng)功能模塊設(shè)計(jì)　　4.2.1主題網(wǎng)絡(luò)爬蟲功能設(shè)計(jì)　　由于相關(guān)主題資源的規(guī)模相對(duì)整個(gè)因特網(wǎng)來說要小得多，也相對(duì)容易控制和掌握，所以主題機(jī)器人可以提供更精確的

100、搜索結(jié)果。但相對(duì)普通網(wǎng)絡(luò)爬蟲，主題網(wǎng)絡(luò)爬蟲還需要解決以下兩個(gè)主要問題：　　1）一個(gè)好的主題網(wǎng)咯爬蟲需要達(dá)到以下兩個(gè)要求：　　.要有一個(gè)好的爬行策略，即決定下一步要爬行哪些網(wǎng)頁的策略。　　.對(duì)于每個(gè)已下載的網(wǎng)頁，主題機(jī)器人需要判斷它與主題的相關(guān)性，用來指導(dǎo)以后的爬行過程。主題機(jī)器人應(yīng)盡量避免爬行主題不相關(guān)的和低質(zhì)量

101、的網(wǎng)頁。　　本論文中的主題機(jī)器人設(shè)計(jì)建立在通用機(jī)器人技術(shù)的基礎(chǔ)上，并對(duì)通用機(jī)器人進(jìn)行功能上的擴(kuò)充。為了保證網(wǎng)絡(luò)機(jī)器人采集的網(wǎng)頁能夠盡量向求職幫助信息主題靠攏，必須在采集過程中進(jìn)行主題相關(guān)度分析，將與求職幫助信息主題相關(guān)度較低的網(wǎng)頁剔除，這樣就不會(huì)在下一步網(wǎng)頁采集過程中處理其中的超文本鏈。因?yàn)橐粋€(gè)網(wǎng)頁的主題相關(guān)度如果很低，說明其該網(wǎng)頁很可能只是偶爾出現(xiàn)某些關(guān)鍵詞。而網(wǎng)頁的主題可能和求職幫助信息主題

102、關(guān)系不大，處理其中超文本鏈接也就沒太大的意義了，這也是主題搜索網(wǎng)絡(luò)機(jī)器人和通用機(jī)器人的根本區(qū)別。通用網(wǎng)絡(luò)機(jī)器人是根據(jù)設(shè)定的搜索深度，對(duì)所有鏈接進(jìn)行處理，結(jié)果采集了大量無關(guān)的網(wǎng)頁，增加了許多不必要的工作量。　　2）初始種子的選擇　　由于該搜索引擎是面向求職幫助信息的，所以網(wǎng)絡(luò)機(jī)器人是面向求職幫助主題的，所以應(yīng)該選擇質(zhì)量

103、較高求職相關(guān)網(wǎng)站作為其初始種子URL集，否則網(wǎng)絡(luò)機(jī)器人無法有效地展開主題相關(guān)網(wǎng)頁的采集工作。比較有影響的求職網(wǎng)站有“中華英才網(wǎng)”、“招聘網(wǎng)”、“搜狐求職”、“前程無憂”、“中國國家人才網(wǎng)”、“高新技術(shù)人才網(wǎng)”等。　　4.2.2主題爬蟲類的設(shè)計(jì)　　4.3索引模塊的功能設(shè)計(jì)　　4.3.1索引模塊的功能的概述</

104、p>　　一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。索引模塊將機(jī)器人收集的文檔進(jìn)行處理，以便于有效查找的數(shù)據(jù)結(jié)構(gòu)進(jìn)行組織，其中就包括了全文檢索索引的建立：查詢服務(wù)模塊從用戶處獲得查詢請(qǐng)求，進(jìn)行查找后將結(jié)果頁面返回給用戶。其中，查詢模塊的效率取決于索引的組織情況，也直接決定了整個(gè)搜索引擎能否實(shí)現(xiàn)快速響應(yīng)。因此，必須對(duì)一索引進(jìn)行高效組織，以實(shí)現(xiàn)整個(gè)搜索引擎的高效率。

105、　　4.3.2索引的類的設(shè)計(jì)　　4.4客戶端檢索模塊　　客戶一般通過瀏覽器進(jìn)行查詢，這就需要系統(tǒng)提供Web服務(wù)器并且與索引數(shù)據(jù)庫進(jìn)行連接。客戶在瀏覽器中輸入查詢條件，Web服務(wù)器接收到客戶的查詢條件后在索引數(shù)據(jù)庫中進(jìn)行查詢、排列然后返回給客戶端。　　4.5數(shù)據(jù)庫設(shè)計(jì)</

106、p>　　4.5.1數(shù)據(jù)庫的pdm圖：　　4.5.2數(shù)據(jù)庫的描述　　t_HtmlUrl保存了新的沒有被處理的URL：　　t_UnVisit記錄了有待訪問的URL：　　t_VisitUrl記錄了已訪問的URL的所有的信息：&

107、lt;p>　　t_Text 記錄文本信息　　第五章面向主題搜索引擎的實(shí)現(xiàn)　　5.1主題爬蟲的實(shí)現(xiàn)：　　實(shí)現(xiàn)的核心代碼：　　public String getFileNameByUrl(String url, String co

108、ntentType) {　　// remove http://　　url = url.substring(7);　　// text/html類型　　if (contentType.indexOf("html") != -1) {

109、　　url = url.replaceAll("[\\?/:*|<>\"]", "_") + ".html";　　return url;　　}　　// 如application

110、/pdf類型　　else {　　return url.replaceAll("[\\?/:*|<>\"]", "_") + "."　　+ contentType.substring(conten

111、tType.lastIndexOf("/") + 1);　　}　　}　　private void saveToLocal(byte[] data, String filePath) {<p

112、>　　try {　　DataOutputStream out = new DataOutputStream(new FileOutputStream(　　new File(filePath)));　　for (int i = 0; i < data.length;

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

面向求職主題的搜索引擎的分析設(shè)計(jì)與實(shí)現(xiàn)【畢業(yè)論文】

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

面向求職主題的搜索引擎的分析設(shè)計(jì)與實(shí)現(xiàn)【畢業(yè)論文】

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載