版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、第11卷第4期軟件導刊SoftwareGuide網絡爬蟲的設計與實現(xiàn)王娟,吳金鵬(貴州民族學院計算機與信息工程學院,貴州貴陽550025)摘要:搜索引擎技術隨著互聯(lián)網的日益壯大而飛速發(fā)展。作為搜索引擎不可或缺的組成部分,網絡爬蟲的作用顯得尤為重要,它的性能直接決定了在龐大的互聯(lián)網上進行網頁信息采集的質量。設計并實現(xiàn)了通用爬蟲和限定爬蟲。關鍵詞:網絡爬蟲;通用爬蟲;限定爬蟲中圖分類號:TP393文獻標識碼:A文章編號:1672—7800(
2、2012)004—0136—020引言網絡爬蟲也稱網絡蜘蛛,它為搜索引擎從萬維網上下載網頁,并沿著網頁的相關鏈接在Web中采集資源,是一個功能很強的網頁自動抓取程序,也是搜索引擎的重要組成部分,爬蟲設計的好壞直接決定著整個搜索引擎的性能及擴展能力。網絡爬蟲按照系統(tǒng)結構和實現(xiàn)技術,大致可以分為:通用網絡爬蟲、主題網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲。實際應用中通常是將幾種爬蟲技術相結合。1通用爬蟲的設計與實現(xiàn)11工作原理通用網絡爬蟲根據(jù)
3、預先設定的一個或若干初始種子URI開始,以此獲得初始網頁上的URL列表,在爬行過程中不斷從URL隊列中獲一個個的URL,進而訪問并下載該頁面。頁面下載后頁面解析器去掉頁面上的HTML標記后得到頁面內容,將摘要、URI等信息保存到Web數(shù)據(jù)庫中,同時抽取當前頁面上新的URI,保存到URL隊列,直到滿足系統(tǒng)停止條件。其原理如圖1所示。12爬行策略為提高工作效率,通用網絡爬蟲會采取一定的爬行策略優(yōu)先爬取重要的網頁。常用的有深度優(yōu)先和寬度優(yōu)先策
4、略。寬度優(yōu)先算法的設計和實現(xiàn)相對簡單,可以覆蓋盡可能多的網頁,是使用最廣泛的一種爬行策略。一個爬蟲如何利用寬度優(yōu)先遍歷來抓取網頁呢在爬蟲中,每個鏈接對應一個HTML頁面或者其它文件,通常將HTML頁面上的超鏈接稱為“子節(jié)點”。整個寬度優(yōu)先爬蟲就是從一系列的種子節(jié)點開始,把這些網頁中的“子節(jié)點”提取出來,放到隊列中依次進行抓取。被訪問過的節(jié)點放人到另一張表中,過程如圖2所示。圖l通用爬蟲工作流程圖2寬度優(yōu)先爬蟲過程13爬蟲隊列設計爬蟲隊列
5、設計是網絡爬蟲的關鍵。因為爬蟲隊列要存儲大量的URL,所以依靠本地鏈表或者隊列肯定是不夠的,應當尋找一個性價比高的數(shù)據(jù)庫來存放URL隊列,BerkeleyDB是目前一種比較流行的內存數(shù)據(jù)庫。根據(jù)爬蟲的特點,Hash表成為了一種比較好的選擇。但是在使用Hash存儲URL字符串的時候常用MD5算法來對URL進行壓縮。在實現(xiàn)了爬蟲隊列之后就要繼續(xù)實現(xiàn)Visited表了。如何在大量的URL中辨別哪些是新的、哪些是被訪問過的呢通常使用的技術就是布
6、隆過濾器(BloomFilter)。利用布隆過濾器判斷一個元素是否在集合中是目前比較高效實用的方法。14設計爬蟲架構爬蟲框架結構如圖3所示。圖3爬蟲結構作者簡介:王娟(1983一),女,湖南邵東人,碩士,貴州民族學院講師,研究方向為數(shù)據(jù)挖掘、網絡安全;吳金鵬(1989一),男,山西晉中人,貴州民族學院本科生,研究方向為計算機科學與技術。第4期王娟,吳金鵬:網絡爬蟲的設計與實現(xiàn)137。其中:①URLFrontier含有爬蟲當前準備抓取的U
7、RL;②DNS解析模塊用來解析域名(根據(jù)給定的URL決定從哪個Web獲取網頁);③解析模塊提取文本和網頁的鏈接集合;④重復消除模塊決定一個解析出來的鏈接是否已經在URLFronier或者是否最近下載過。下面通過實驗來比較一下我們設計的爬蟲抓取網頁與原網頁的對比,見圖4、圖5。誓一鎏~~::蔓0蝴::=圖4原網頁圖5抓取網頁通過比較可以發(fā)現(xiàn),由于原網頁有動畫等多媒體元素,雖然爬蟲無法抓取下來全部內容,但基本上是一個完整的爬蟲。2限定爬蟲的
8、設計與實現(xiàn)限定爬蟲就是對爬蟲所爬取的主機的范圍作一些限制。通常限定爬蟲包含以下內容:①限定域名的爬蟲;②限定爬取層數(shù)的爬蟲;③限定IP的抓?。虎芟薅ㄕZ言的抓取。限定域名的抓取,是一種最簡單的限定抓取,只需要根據(jù)當前URL字符串的值來作出限定即可。限定爬蟲爬取的層次要比限定域名更復雜。限定IP是限定抓取中最難的一部分。通常分為限定特定IP和限定某一地區(qū)的IP。限定特定IP抓取較為容易,只要通過URL就可以獲得主機IP地址,如果主機IP在被
9、限制的列表中就不抓取。否則正常工作。想要限定IP抓取,首先要根據(jù)主機字符串獲得IP地址。下面我們通過實驗來得到IP地址:貴州民族學院:主機域名:wwwgznceducnIP地址:21040I328貴州大學:主機域名:wwwgzueducnIP地址:21040058根據(jù)URI得到IP地址之后,就要根據(jù)IP地址對某一地區(qū)的IP作出限制。但是需要有一個IP與地區(qū)對應的數(shù)據(jù)庫,網上很多這樣的數(shù)據(jù)庫都是收費的,在此我們使用的是騰訊公司推出的一款免
10、費數(shù)據(jù)庫“QQwrydat”,只要輸人IP地址就可以查到對應IP地址所在的區(qū)域。輸入:21040058輸出:貴州省貴陽市:貴州大學輸入:210401328輸出:貴州省貴陽市:貴州民族學院根據(jù)IP地址制作一張列表,將限制地區(qū)的IP地址寫入列表,爬蟲如果檢測到要抓取的IP地址屬于該列表,就放棄抓取,這樣一個限定爬蟲就完成了。3結束語本文介紹了爬蟲的工作原理,重點介紹了通用爬蟲和限定爬蟲的設計及實現(xiàn),并通過實驗證明本文設計的爬蟲可以達到預期效
11、果。參考文獻:[1]孫立偉,何國輝,吳禮發(fā)網絡爬蟲技術的研究[J]電腦知識與技術,2010(15)[23于成龍,于洪波網絡爬蟲技術研究[J]東莞理工學院學報,2011(3)[3]羅剛自己動手寫搜索引擎[M]北京:電子工業(yè)出版社,2009E4]唐波網絡爬蟲的設計與實現(xiàn)[J]電腦知識與技術,2009(11)[5]龔勇搜索引擎中網絡爬蟲的研究[D]武漢:武漢理工大學,2010(責任編輯:杜能鋼)TheDesignandImplementati
12、onofWebCrawlerAbstract:WiththegrowingofInternet,searchenginetechnologydevelopsrapidlyAsanindispensablepartofsearchangine,webcrawlerisparticularlyimportant,itsperformancedirectlydeterminesthequalityofgatheringwebpageinfor
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 畢業(yè)設計---網絡爬蟲的設計與實現(xiàn)
- 并行網絡爬蟲設計與實現(xiàn).pdf
- Inar網絡爬蟲的設計與實現(xiàn).pdf
- 基于java的網絡爬蟲的設計與實現(xiàn)
- 網絡輿情爬蟲系統(tǒng)的設計與實現(xiàn).pdf
- 網絡爬蟲的設計與實現(xiàn)(完整版)
- 面向主題的網絡爬蟲設計與實現(xiàn).pdf
- 網絡爬蟲的設計與實現(xiàn)畢設論文
- 網絡爬蟲的設計與實現(xiàn)(完整版)分解
- 支持AJAX的網絡爬蟲系統(tǒng)設計與實現(xiàn).pdf
- 基于社交網絡信息爬蟲的設計與實現(xiàn).pdf
- 主題網絡爬蟲的設計與實現(xiàn)---畢業(yè)論文
- 主題網絡爬蟲的研究與實現(xiàn).pdf
- 分布式網絡爬蟲系統(tǒng)的設計與實現(xiàn).pdf
- 網絡爬蟲系統(tǒng)的研究與實現(xiàn).pdf
- 分布式主題網絡爬蟲的設計與實現(xiàn).pdf
- 基于網絡爬蟲的網絡輿情分析系統(tǒng)的設計與實現(xiàn).pdf
- 面向教育輿情的主題網絡爬蟲設計與實現(xiàn).pdf
- 畢業(yè)論文(設計)面向web service的網絡爬蟲設計與實現(xiàn)
- 基于頁面分析的網絡爬蟲系統(tǒng)的設計與實現(xiàn).pdf
評論
0/150
提交評論