版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、網(wǎng)絡(luò)爬蟲(chóng)詳解網(wǎng)絡(luò)爬蟲(chóng)詳解一、爬蟲(chóng)技術(shù)研究綜述引言隨著網(wǎng)絡(luò)的迅速發(fā)展,萬(wàn)維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。搜索引擎(SearchEngine),例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個(gè)輔助人們檢索信息的工具成為用戶訪問(wèn)萬(wàn)維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,如:(1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎
2、所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè)。(2)通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無(wú)限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。(3)萬(wàn)維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫(kù)、音頻視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對(duì)這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無(wú)能為力,不能很好地發(fā)現(xiàn)和獲取。(4)通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語(yǔ)義信息提出的查詢。為了解決上述問(wèn)題,定
3、向抓取相關(guān)網(wǎng)頁(yè)資源定向抓取相關(guān)網(wǎng)頁(yè)資源的聚焦爬蟲(chóng)應(yīng)運(yùn)而生。聚焦爬蟲(chóng)是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的程序,它根據(jù)既定的抓取目標(biāo),有選擇的訪問(wèn)有選擇的訪問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲(chóng)(generalpurposewebcrawler)不同,聚焦爬蟲(chóng)并不追求大的覆蓋,而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè),為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。1聚焦爬蟲(chóng)工作原理及關(guān)鍵技術(shù)概述網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,它為搜索引
4、擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè),是搜索引擎的重要組成。傳統(tǒng)爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始,獲得初始網(wǎng)頁(yè)上的URL,在抓取網(wǎng)頁(yè)的過(guò)程中,不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列直到滿足系統(tǒng)的一定停止條件,如圖1(a)流程圖所示。聚焦爬蟲(chóng)的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)URL,并重復(fù)上述過(guò)程,直到達(dá)到系統(tǒng)的某
5、一條件時(shí)停止,如圖1(b)所示。另外,所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì)被系統(tǒng)存貯,進(jìn)行一定的分析、過(guò)濾,并建立索引,以便之后的查詢和檢索;對(duì)于聚焦爬蟲(chóng)來(lái)說(shuō),這一過(guò)程所得到的分析結(jié)果還可能對(duì)以后的抓取過(guò)程給出反饋和指導(dǎo)。相對(duì)于通用網(wǎng)絡(luò)爬蟲(chóng),聚焦爬蟲(chóng)還需要解決三個(gè)主要問(wèn)題:(1)對(duì)抓取目標(biāo)的描述或定義;(2)對(duì)網(wǎng)頁(yè)或數(shù)據(jù)的分析與過(guò)濾;(3)對(duì)URL的搜索策略。抓取目標(biāo)的描述和定義是決定網(wǎng)頁(yè)分析算法與URL搜索策略如何制訂的基3.2最佳優(yōu)先
6、搜索策略最佳優(yōu)先搜索策略按照一定的網(wǎng)頁(yè)分析算法,預(yù)測(cè)候選URL與目標(biāo)網(wǎng)頁(yè)的相似度,或與主題的相關(guān)性,并選取評(píng)價(jià)最好的一個(gè)或幾個(gè)URL進(jìn)行抓取。它只訪問(wèn)經(jīng)過(guò)網(wǎng)頁(yè)分析算法預(yù)測(cè)為“有用”的網(wǎng)頁(yè)。存在的一個(gè)問(wèn)題是,在爬蟲(chóng)抓取路徑上的很多相關(guān)網(wǎng)頁(yè)可能被忽略,因?yàn)樽罴褍?yōu)先策略是一種局部最優(yōu)搜索算法。因此需要將最佳優(yōu)先結(jié)合具體的應(yīng)用進(jìn)行改進(jìn),以跳出局部最優(yōu)點(diǎn)。將在第4節(jié)中結(jié)合網(wǎng)頁(yè)分析算法作具體的討論。研究表明,這樣的閉環(huán)調(diào)整可以將無(wú)關(guān)網(wǎng)頁(yè)數(shù)量降低3
7、0%~90%。四、網(wǎng)頁(yè)分析算法網(wǎng)頁(yè)分析算法可以歸納為基于網(wǎng)絡(luò)拓?fù)?、基于網(wǎng)頁(yè)內(nèi)容和基于用戶訪問(wèn)行為三種類型。4.1基于網(wǎng)絡(luò)拓?fù)涞姆治鏊惴íセ诰W(wǎng)頁(yè)之間的鏈接,通過(guò)已知的網(wǎng)頁(yè)或數(shù)據(jù),來(lái)對(duì)與其有直接或間接鏈接關(guān)系的對(duì)象(可以是網(wǎng)頁(yè)或網(wǎng)站等)作出評(píng)價(jià)的算法。又分為網(wǎng)頁(yè)粒度、網(wǎng)站粒度和網(wǎng)頁(yè)塊粒度這三種。4.1.1網(wǎng)頁(yè)(Webpage)粒度的分析算法PageRank和HITS算法是最常見(jiàn)的鏈接分析算法,兩者都是通過(guò)對(duì)網(wǎng)頁(yè)間鏈接度的遞歸和規(guī)
8、范化計(jì)算,得到每個(gè)網(wǎng)頁(yè)的重要度評(píng)價(jià)。PageRank算法雖然考慮了用戶訪問(wèn)行為的隨機(jī)性和Sink網(wǎng)頁(yè)的存在,但忽略了絕大多數(shù)用戶訪問(wèn)時(shí)帶有目的性,即網(wǎng)頁(yè)和鏈接與查詢主題的相關(guān)性。針對(duì)這個(gè)問(wèn)題,HITS算法提出了兩個(gè)關(guān)鍵的概念:權(quán)威型網(wǎng)頁(yè)(authity)和中心型網(wǎng)頁(yè)(hub)。基于鏈接的抓取的問(wèn)題是相關(guān)頁(yè)面主題團(tuán)之間的隧道現(xiàn)象,即很多在抓取路徑上偏離主題的網(wǎng)頁(yè)也指向目標(biāo)網(wǎng)頁(yè),局部評(píng)價(jià)策略中斷了在當(dāng)前路徑上的抓取行為。文獻(xiàn)[21]提出了
9、一種基于反向鏈接(BackLink)的分層式上下文模型(ContextModel),用于描述指向目標(biāo)網(wǎng)頁(yè)一定物理跳數(shù)半徑內(nèi)的網(wǎng)頁(yè)拓?fù)鋱D的中心Layer0為目標(biāo)網(wǎng)頁(yè),將網(wǎng)頁(yè)依據(jù)指向目標(biāo)網(wǎng)頁(yè)的物理跳數(shù)進(jìn)行層次劃分,從外層網(wǎng)頁(yè)指向內(nèi)層網(wǎng)頁(yè)的鏈接稱為反向鏈接。4.1.2網(wǎng)站粒度的分析算法網(wǎng)站粒度的資源發(fā)現(xiàn)和管理策略也比網(wǎng)頁(yè)粒度的更簡(jiǎn)單有效。網(wǎng)站粒度的爬蟲(chóng)抓取的關(guān)鍵之處在于站點(diǎn)的劃分和站點(diǎn)等級(jí)(SiteRank)的計(jì)算。SiteRank的計(jì)算
10、方法與PageRank類似,但是需要對(duì)網(wǎng)站之間的鏈接作一定程度抽象,并在一定的模型下計(jì)算鏈接的權(quán)重。網(wǎng)站劃分情況分為按域名劃分和按IP地址劃分兩種。文獻(xiàn)[18]討論了在分布式情況下,通過(guò)對(duì)同一個(gè)域名下不同主機(jī)、服務(wù)器的IP地址進(jìn)行站點(diǎn)劃分,構(gòu)造站點(diǎn)圖,利用類似PageRank的方法評(píng)價(jià)SiteRank。同時(shí),根據(jù)不同文件在各個(gè)站點(diǎn)上的分布情況,構(gòu)造文檔圖,結(jié)合SiteRank分布式計(jì)算得到DocRank。文獻(xiàn)[18]證明,利用分布式的
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 網(wǎng)絡(luò)爬蟲(chóng)
- 網(wǎng)絡(luò)蜘蛛,網(wǎng)絡(luò)爬蟲(chóng)
- 網(wǎng)絡(luò)爬蟲(chóng)文檔
- 網(wǎng)絡(luò)爬蟲(chóng)外文翻譯---基于網(wǎng)絡(luò)爬蟲(chóng)的有效url緩存
- 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)淺析
- 網(wǎng)絡(luò)爬蟲(chóng)源代碼
- 網(wǎng)絡(luò)爬蟲(chóng)技術(shù)分析
- 網(wǎng)絡(luò)爬蟲(chóng)源代碼07236
- python網(wǎng)絡(luò)爬蟲(chóng)實(shí)習(xí)報(bào)告
- 網(wǎng)絡(luò)爬蟲(chóng)源代碼07320
- 網(wǎng)絡(luò)爬蟲(chóng)java實(shí)現(xiàn)原理
- python網(wǎng)絡(luò)爬蟲(chóng)實(shí)習(xí)報(bào)告
- 用python編寫(xiě)網(wǎng)絡(luò)爬蟲(chóng)
- 網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)
- 基于Python 的網(wǎng)絡(luò)爬蟲(chóng).docx
- 簡(jiǎn)易網(wǎng)絡(luò)爬蟲(chóng)程序的開(kāi)發(fā)
- 研究面向服務(wù)的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)——網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的設(shè)計(jì)和構(gòu)建---畢業(yè)論文
- 研究面向服務(wù)的網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)——網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)的設(shè)計(jì)和構(gòu)建---畢業(yè)論文
- 畢業(yè)論文外文翻譯-網(wǎng)絡(luò)爬蟲(chóng)
- 惡意網(wǎng)頁(yè) 高交互 網(wǎng)絡(luò)爬蟲(chóng) rootkit
評(píng)論
0/150
提交評(píng)論