版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、網(wǎng)絡(luò)爬蟲文檔一、爬蟲基本知識1、傳統(tǒng)爬蟲從一個(gè)或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊(duì)列直到滿足系統(tǒng)的一定停止條件。2、聚焦爬蟲聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊(duì)列。然后,它將根據(jù)一定的搜索策略從隊(duì)列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達(dá)到系統(tǒng)的某一條件時(shí)停止。3、傳統(tǒng)爬
2、蟲的局限性(1)不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。(2)通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。(3)萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲取。(4)通用搜索引
3、擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語義信息提出的查詢。4、聚焦爬蟲解決的三個(gè)主要問題(1)對抓取目標(biāo)的描述或定義;①基于目標(biāo)網(wǎng)頁特征基于目標(biāo)網(wǎng)頁特征的爬蟲所抓取、存儲(chǔ)并索引的對象一般為網(wǎng)站或網(wǎng)頁。具體的和出度(從此網(wǎng)頁指向別的網(wǎng)頁)來衡量網(wǎng)頁的重要性。其最直觀的意義是如果一個(gè)網(wǎng)頁的重要性很高,則他所指向的網(wǎng)頁的重要性也高。一個(gè)重要的網(wǎng)頁被另一個(gè)網(wǎng)頁所指,則表明指向它的網(wǎng)頁重要性也會(huì)高。指向別的網(wǎng)頁定義為Hub值被指向定義為Aut
4、hity值。通常HITS算法是作用在一定范圍的,比如一個(gè)以程序開發(fā)為主題網(wǎng)頁,指向另一個(gè)以程序開發(fā)為主題的網(wǎng)頁,則另一個(gè)網(wǎng)頁的重要性就可能比較高,但是指向另一個(gè)購物類的網(wǎng)頁則不一定。在限定范圍之后根據(jù)網(wǎng)頁的出度和入度建立一個(gè)矩陣,通過矩陣的迭代運(yùn)算和定義收斂的閾值不斷對兩個(gè)向量Authity和Hub值進(jìn)行更新直至收斂。②基于網(wǎng)頁內(nèi)容基于網(wǎng)頁內(nèi)容的分析算法指的是利用網(wǎng)頁內(nèi)容(文本、數(shù)據(jù)等資源)特征進(jìn)行的網(wǎng)頁評價(jià)。網(wǎng)頁的內(nèi)容從原來的以超文本
5、為主,發(fā)展到后來動(dòng)態(tài)頁面(或稱為HiddenWeb)數(shù)據(jù)為主,后者的數(shù)據(jù)量約為直接可見頁面數(shù)據(jù)(PIW,PubliclyIndexableWeb)的400~500倍。另一方面,多媒體數(shù)據(jù)、WebService等各種網(wǎng)絡(luò)資源形式也日益豐富。因此,基于網(wǎng)頁內(nèi)容的分析算法也從原來的較為單純的文本檢索方法,發(fā)展為涵蓋網(wǎng)頁數(shù)據(jù)抽取、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、語義理解等多種方法的綜合應(yīng)用。本節(jié)根據(jù)網(wǎng)頁數(shù)據(jù)形式的不同,將基于網(wǎng)頁內(nèi)容的分析算法,歸納以下三類
6、:第一種針對以文本和超鏈接為主的無結(jié)構(gòu)或結(jié)構(gòu)很簡單的網(wǎng)頁;第二種針對從結(jié)構(gòu)化的數(shù)據(jù)源(如RDBMS)動(dòng)態(tài)生成的頁面,其數(shù)據(jù)不能直接批量訪問;第三種針對的數(shù)據(jù)界于第一和第二類數(shù)據(jù)之間,具有較好的結(jié)構(gòu),顯示遵循一定模式或風(fēng)格,且可以直接訪問。③基于用戶訪問行為(3)對URL的搜索策略。①廣度優(yōu)先搜索策略廣度優(yōu)先搜索策略是指在抓取過程中,在完成當(dāng)前層次的搜索后,才進(jìn)行下一層次的搜索。該算法的設(shè)計(jì)和實(shí)現(xiàn)相對簡單。在目前為覆蓋盡可能多的網(wǎng)頁,一
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 網(wǎng)絡(luò)爬蟲
- 網(wǎng)絡(luò)蜘蛛,網(wǎng)絡(luò)爬蟲
- 網(wǎng)絡(luò)爬蟲詳解
- 網(wǎng)絡(luò)爬蟲外文翻譯---基于網(wǎng)絡(luò)爬蟲的有效url緩存
- 網(wǎng)絡(luò)爬蟲技術(shù)淺析
- 網(wǎng)絡(luò)爬蟲源代碼
- 網(wǎng)絡(luò)爬蟲技術(shù)分析
- 網(wǎng)絡(luò)爬蟲源代碼07236
- python網(wǎng)絡(luò)爬蟲實(shí)習(xí)報(bào)告
- 網(wǎng)絡(luò)爬蟲源代碼07320
- 網(wǎng)絡(luò)爬蟲java實(shí)現(xiàn)原理
- python網(wǎng)絡(luò)爬蟲實(shí)習(xí)報(bào)告
- 用python編寫網(wǎng)絡(luò)爬蟲
- 網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)
- 基于Python 的網(wǎng)絡(luò)爬蟲.docx
- 簡易網(wǎng)絡(luò)爬蟲程序的開發(fā)
- 研究面向服務(wù)的網(wǎng)絡(luò)爬蟲系統(tǒng)——網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)和構(gòu)建---畢業(yè)論文
- 研究面向服務(wù)的網(wǎng)絡(luò)爬蟲系統(tǒng)——網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)和構(gòu)建---畢業(yè)論文
- 畢業(yè)論文外文翻譯-網(wǎng)絡(luò)爬蟲
- 惡意網(wǎng)頁 高交互 網(wǎng)絡(luò)爬蟲 rootkit
評論
0/150
提交評論