網(wǎng)絡(luò)爬蟲(chóng)詳解

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-08 格式：doc 頁(yè)數(shù)：4 大?。?4.00KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題（含答案詳解+作文范文）_第1頁(yè)

已閱讀1頁(yè)，還剩3頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、網(wǎng)絡(luò)爬蟲(chóng)詳解網(wǎng)絡(luò)爬蟲(chóng)詳解一、爬蟲(chóng)技術(shù)研究綜述引言隨著網(wǎng)絡(luò)的迅速發(fā)展，萬(wàn)維網(wǎng)成為大量信息的載體，如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)。搜索引擎(SearchEngine)，例如傳統(tǒng)的通用搜索引擎AltaVista，Yahoo!和Google等，作為一個(gè)輔助人們檢索信息的工具成為用戶訪問(wèn)萬(wàn)維網(wǎng)的入口和指南。但是，這些通用性搜索引擎也存在著一定的局限性，如：(1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求，通用搜索引擎

2、所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁(yè)。(2)通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率，有限的搜索引擎服務(wù)器資源與無(wú)限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。(3)萬(wàn)維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，圖片、數(shù)據(jù)庫(kù)、音頻視頻多媒體等不同數(shù)據(jù)大量出現(xiàn)，通用搜索引擎往往對(duì)這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無(wú)能為力，不能很好地發(fā)現(xiàn)和獲取。(4)通用搜索引擎大多提供基于關(guān)鍵字的檢索，難以支持根據(jù)語(yǔ)義信息提出的查詢。為了解決上述問(wèn)題，定

3、向抓取相關(guān)網(wǎng)頁(yè)資源定向抓取相關(guān)網(wǎng)頁(yè)資源的聚焦爬蟲(chóng)應(yīng)運(yùn)而生。聚焦爬蟲(chóng)是一個(gè)自動(dòng)下載網(wǎng)頁(yè)的程序，它根據(jù)既定的抓取目標(biāo)，有選擇的訪問(wèn)有選擇的訪問(wèn)萬(wàn)維網(wǎng)上的網(wǎng)頁(yè)與相關(guān)的鏈接，獲取所需要的信息。與通用爬蟲(chóng)(generalpurposewebcrawler)不同，聚焦爬蟲(chóng)并不追求大的覆蓋，而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁(yè)，為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。1聚焦爬蟲(chóng)工作原理及關(guān)鍵技術(shù)概述網(wǎng)絡(luò)爬蟲(chóng)是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序，它為搜索引

4、擎從萬(wàn)維網(wǎng)上下載網(wǎng)頁(yè)，是搜索引擎的重要組成。傳統(tǒng)爬蟲(chóng)從一個(gè)或若干初始網(wǎng)頁(yè)的URL開(kāi)始，獲得初始網(wǎng)頁(yè)上的URL，在抓取網(wǎng)頁(yè)的過(guò)程中，不斷從當(dāng)前頁(yè)面上抽取新的URL放入隊(duì)列直到滿足系統(tǒng)的一定停止條件，如圖1(a)流程圖所示。聚焦爬蟲(chóng)的工作流程較為復(fù)雜，需要根據(jù)一定的網(wǎng)頁(yè)分析算法過(guò)濾與主題無(wú)關(guān)的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后，它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁(yè)URL，并重復(fù)上述過(guò)程，直到達(dá)到系統(tǒng)的某

5、一條件時(shí)停止，如圖1(b)所示。另外，所有被爬蟲(chóng)抓取的網(wǎng)頁(yè)將會(huì)被系統(tǒng)存貯，進(jìn)行一定的分析、過(guò)濾，并建立索引，以便之后的查詢和檢索；對(duì)于聚焦爬蟲(chóng)來(lái)說(shuō)，這一過(guò)程所得到的分析結(jié)果還可能對(duì)以后的抓取過(guò)程給出反饋和指導(dǎo)。相對(duì)于通用網(wǎng)絡(luò)爬蟲(chóng)，聚焦爬蟲(chóng)還需要解決三個(gè)主要問(wèn)題：(1)對(duì)抓取目標(biāo)的描述或定義；(2)對(duì)網(wǎng)頁(yè)或數(shù)據(jù)的分析與過(guò)濾；(3)對(duì)URL的搜索策略。抓取目標(biāo)的描述和定義是決定網(wǎng)頁(yè)分析算法與URL搜索策略如何制訂的基3.2最佳優(yōu)先

6、搜索策略最佳優(yōu)先搜索策略按照一定的網(wǎng)頁(yè)分析算法，預(yù)測(cè)候選URL與目標(biāo)網(wǎng)頁(yè)的相似度，或與主題的相關(guān)性，并選取評(píng)價(jià)最好的一個(gè)或幾個(gè)URL進(jìn)行抓取。它只訪問(wèn)經(jīng)過(guò)網(wǎng)頁(yè)分析算法預(yù)測(cè)為“有用”的網(wǎng)頁(yè)。存在的一個(gè)問(wèn)題是，在爬蟲(chóng)抓取路徑上的很多相關(guān)網(wǎng)頁(yè)可能被忽略，因?yàn)樽罴褍?yōu)先策略是一種局部最優(yōu)搜索算法。因此需要將最佳優(yōu)先結(jié)合具體的應(yīng)用進(jìn)行改進(jìn)，以跳出局部最優(yōu)點(diǎn)。將在第4節(jié)中結(jié)合網(wǎng)頁(yè)分析算法作具體的討論。研究表明，這樣的閉環(huán)調(diào)整可以將無(wú)關(guān)網(wǎng)頁(yè)數(shù)量降低3

7、0%~90%。四、網(wǎng)頁(yè)分析算法網(wǎng)頁(yè)分析算法可以歸納為基于網(wǎng)絡(luò)拓?fù)?、基于網(wǎng)頁(yè)內(nèi)容和基于用戶訪問(wèn)行為三種類型。4.1基于網(wǎng)絡(luò)拓?fù)涞姆治鏊惴íセ诰W(wǎng)頁(yè)之間的鏈接，通過(guò)已知的網(wǎng)頁(yè)或數(shù)據(jù)，來(lái)對(duì)與其有直接或間接鏈接關(guān)系的對(duì)象（可以是網(wǎng)頁(yè)或網(wǎng)站等）作出評(píng)價(jià)的算法。又分為網(wǎng)頁(yè)粒度、網(wǎng)站粒度和網(wǎng)頁(yè)塊粒度這三種。4.1.1網(wǎng)頁(yè)(Webpage)粒度的分析算法PageRank和HITS算法是最常見(jiàn)的鏈接分析算法，兩者都是通過(guò)對(duì)網(wǎng)頁(yè)間鏈接度的遞歸和規(guī)

8、范化計(jì)算，得到每個(gè)網(wǎng)頁(yè)的重要度評(píng)價(jià)。PageRank算法雖然考慮了用戶訪問(wèn)行為的隨機(jī)性和Sink網(wǎng)頁(yè)的存在，但忽略了絕大多數(shù)用戶訪問(wèn)時(shí)帶有目的性，即網(wǎng)頁(yè)和鏈接與查詢主題的相關(guān)性。針對(duì)這個(gè)問(wèn)題，HITS算法提出了兩個(gè)關(guān)鍵的概念：權(quán)威型網(wǎng)頁(yè)（authity）和中心型網(wǎng)頁(yè)（hub）。基于鏈接的抓取的問(wèn)題是相關(guān)頁(yè)面主題團(tuán)之間的隧道現(xiàn)象，即很多在抓取路徑上偏離主題的網(wǎng)頁(yè)也指向目標(biāo)網(wǎng)頁(yè)，局部評(píng)價(jià)策略中斷了在當(dāng)前路徑上的抓取行為。文獻(xiàn)[21]提出了

9、一種基于反向鏈接（BackLink）的分層式上下文模型（ContextModel），用于描述指向目標(biāo)網(wǎng)頁(yè)一定物理跳數(shù)半徑內(nèi)的網(wǎng)頁(yè)拓?fù)鋱D的中心Layer0為目標(biāo)網(wǎng)頁(yè)，將網(wǎng)頁(yè)依據(jù)指向目標(biāo)網(wǎng)頁(yè)的物理跳數(shù)進(jìn)行層次劃分，從外層網(wǎng)頁(yè)指向內(nèi)層網(wǎng)頁(yè)的鏈接稱為反向鏈接。4.1.2網(wǎng)站粒度的分析算法網(wǎng)站粒度的資源發(fā)現(xiàn)和管理策略也比網(wǎng)頁(yè)粒度的更簡(jiǎn)單有效。網(wǎng)站粒度的爬蟲(chóng)抓取的關(guān)鍵之處在于站點(diǎn)的劃分和站點(diǎn)等級(jí)(SiteRank)的計(jì)算。SiteRank的計(jì)算

10、方法與PageRank類似，但是需要對(duì)網(wǎng)站之間的鏈接作一定程度抽象，并在一定的模型下計(jì)算鏈接的權(quán)重。網(wǎng)站劃分情況分為按域名劃分和按IP地址劃分兩種。文獻(xiàn)[18]討論了在分布式情況下，通過(guò)對(duì)同一個(gè)域名下不同主機(jī)、服務(wù)器的IP地址進(jìn)行站點(diǎn)劃分，構(gòu)造站點(diǎn)圖，利用類似PageRank的方法評(píng)價(jià)SiteRank。同時(shí)，根據(jù)不同文件在各個(gè)站點(diǎn)上的分布情況，構(gòu)造文檔圖，結(jié)合SiteRank分布式計(jì)算得到DocRank。文獻(xiàn)[18]證明，利用分布式的

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

網(wǎng)絡(luò)爬蟲(chóng)詳解

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

網(wǎng)絡(luò)爬蟲(chóng)詳解

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載