版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、網絡爬蟲技術分析與研究網絡爬蟲技術分析與研究搜索引擎搜索引擎1.概念:從網絡上獲得網站網頁資料,能夠建立數(shù)據(jù)庫并提供查詢的系統(tǒng)。2.分類(按工作原理):全文搜索引擎、分類目錄。1全文搜索引擎數(shù)據(jù)庫是依靠網絡爬蟲通過網絡上的各種鏈接自動獲取大量網頁信息內容,并按一定的規(guī)則分析整理形成的。(百度、Google)2分類目錄:按目錄分類的網站鏈接列表而已,通過人工的方式收集整理網站資料形成的數(shù)據(jù)庫。(國內的搜狐)網絡機器人網絡機器人1.概念:它
2、們是Web上獨自運行的軟件程序,它們不斷地篩選數(shù)據(jù),做出自己的決定,能夠使用Web獲取文本或者進行搜索查詢,按部就班地完成各自的任務。2.分類:購物機器人、聊天機器人、搜索機器人(網絡爬蟲)等。網絡爬蟲網絡爬蟲1.概念:網絡爬蟲也叫網絡蜘蛛,它是一個按照一定的規(guī)則自動提取網頁程序,其會自動的通過網絡抓取互聯(lián)網上的網頁,這種技術一般可能用來檢查你的站點上所有的鏈接是否是都是有效的。當然,更為高級的技術是把網頁中的相關數(shù)據(jù)保存下來,可以成為
3、搜索引擎。搜索引擎使用網絡爬蟲尋找網絡內容,網絡上的HTML文檔使用超鏈接連接了起來,就像織成了一張網,網絡爬蟲也叫網絡蜘蛛,順著這張網爬行,每到一個網頁就用抓取程序將這個網頁抓下來,將內容抽取出來,同時抽取超鏈接,作為進一步爬行的線索。網絡爬蟲總是要從某個起點開始爬,這個起點叫做種子,你可以告訴它,也可以到一些網址列表網站上獲取。2.區(qū)別:網絡爬蟲分類通用爬蟲聚集爬蟲工作原理從一個或多個初始網頁的URL開始,獲取初始網頁的URL,抓取
4、網頁的同時,從當前網頁提取相關的URL放入隊列中,直到滿足程序的停止條件。根據(jù)一定的網頁分析算法過濾與主題無關的鏈接,保留有用的鏈接(爬行的范圍是受控的)放到待抓取的隊列中,通過一定的搜索策略從隊列中選擇下一步要抓取的URL,重復以上步驟,直到滿足程序的停止條件。不同點1.增加了一些網頁分析算法和網頁搜索策略2.對被爬蟲抓取的網頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索,這一過程所得到的分析結果還可能1網頁
5、分析算法1.1基于網絡拓撲的分析算法基于網頁之間的鏈接,通過已知的網頁或數(shù)據(jù),來對與其有直接或間接鏈接關系的對象(可以是網頁或網站等)作出評價的算法。又分為網頁粒度、網站粒度和網頁塊粒度這三種。1.1.1網頁(Webpage)粒度的分析算法PageRank和HITS算法是最常見的鏈接分析算法,兩者都是通過對網頁間鏈接度的遞歸和規(guī)范化計算,得到每個網頁的重要度評價。PageRank算法雖然考慮了用戶訪問行為的隨機性和Sink網頁的存在,
6、但忽略了絕大多數(shù)用戶訪問時帶有目的性,即網頁和鏈接與查詢主題的相關性。針對這個問題,HITS算法提出了兩個關鍵的概念:權威型網頁(authity)和中心型網頁(hub)?;阪溄拥淖ト〉膯栴}是相關頁面主題團之間的隧道現(xiàn)象,即很多在抓取路徑上偏離主題的網頁也指向目標網頁,局部評價策略中斷了在當前路徑上的抓取行為。文獻[21]提出了一種基于反向鏈接(BackLink)的分層式上下文模型(ContextModel),用于描述指向目標網頁一定物
7、理跳數(shù)半徑內的網頁拓撲圖的中心Layer0為目標網頁,將網頁依據(jù)指向目標網頁的物理跳數(shù)進行層次劃分,從外層網頁指向內層網頁的鏈接稱為反向鏈接。1.1.2網站粒度的分析算法網站粒度的資源發(fā)現(xiàn)和管理策略也比網頁粒度的更簡單有效。網站粒度的爬蟲抓取的關鍵之處在于站點的劃分和站點等級(SiteRank)的計算。SiteRank的計算方法與PageRank類似,但是需要對網站之間的鏈接作一定程度抽象,并在一定的模型下計算鏈接的權重。網站劃分情況
8、分為按域名劃分和按IP地址劃分兩種。文獻[18]討論了在分布式情況下,通過對同一個域名下不同主機、服務器的IP地址進行站點劃分,構造站點圖,利用類似PageRank的方法評價SiteRank。同時,根據(jù)不同文件在各個站點上的分布情況,構造文檔圖,結合SiteRank分布式計算得到DocRank。文獻[18]證明,利用分布式的SiteRank計算,不僅大大降低了單機站點的算法代價,而且克服了單獨站點對整個網絡覆蓋率有限的缺點。附帶的一個優(yōu)
9、點是,常見PageRank造假難以對SiteRank進行欺騙。1.1.3網頁塊粒度的分析算法在一個頁面中,往往含有多個指向其他頁面的鏈接,這些鏈接中只有一部分是指向主題相關網頁的,或根據(jù)網頁的鏈接錨文本表明其具有較高重要性。但是,在PageRank和HITS算法中,沒有對這些鏈接作區(qū)分,因此常常給網頁分析帶來廣告等噪聲鏈接的干擾。在網頁塊級別(Blocklevel)進行鏈接分析的算法的基本思想是通過VIPS網頁分割算法將網頁分為不同
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 網絡爬蟲技術淺析
- 基于網絡爬蟲技術的網絡新聞分析
- 網絡爬蟲
- 網絡蜘蛛,網絡爬蟲
- 網絡爬蟲文檔
- 基于網絡爬蟲技術的企業(yè)社交媒體情報獲取分析
- 網絡爬蟲詳解
- 爬蟲技術
- 基于網絡爬蟲的用戶行為分析.pdf
- 網絡爬蟲外文翻譯---基于網絡爬蟲的有效url緩存
- 基于網絡爬蟲技術的企業(yè)社交媒體情報獲取分析.pdf
- 網絡爬蟲源代碼
- 主題網絡爬蟲關鍵技術研究.pdf
- 基于hadoop的網絡爬蟲技術研究.pdf
- 基于網絡爬蟲的XSS漏洞檢測技術.pdf
- 基于Hadoop的分布式網絡爬蟲技術.pdf
- 并行網絡爬蟲技術及實驗系統(tǒng)研究.pdf
- 網絡爬蟲源代碼07236
- python網絡爬蟲實習報告
- 網絡爬蟲源代碼07320
評論
0/150
提交評論