搜索引擎工作原理_第1頁
已閱讀1頁,還剩2頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、搜索引擎工作原理.txt15成熟的麥子低垂著頭,那是在教我們謙遜;一群螞蟻能抬走大骨頭,那是在教我們團(tuán)結(jié);溫柔的水滴穿巖石,那是在教我們堅韌;蜜蜂在花叢中忙碌,那是在教我們勤勞。搜索引擎工作原理一、搜索引擎的分類獲得網(wǎng)站網(wǎng)頁資料,能夠建立數(shù)據(jù)庫并提供查詢的系統(tǒng),我們都可以把它叫做搜索引擎。按照工作原理的不同,可以把它們分為兩個基本類別:全文搜索引擎(FullTextSearchEngine)和分類目錄Directy)。全文搜索引擎的數(shù)據(jù)

2、庫是依靠一個叫“網(wǎng)絡(luò)機(jī)器人(Spider)“或叫“網(wǎng)絡(luò)蜘蛛(crawlers)“的軟件,通過網(wǎng)絡(luò)上的各種鏈接自動獲取大量網(wǎng)頁信息內(nèi)容,并按以定的規(guī)則分析整理形成的。Google、百度都是比較典型的全文搜索引擎系統(tǒng)。分類目錄則是通過人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫的,比如雅虎中國以及國內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。另外,在網(wǎng)上的一些導(dǎo)航站點(diǎn),也可以歸屬為原始的分類目錄,比如“網(wǎng)址之家“。全文搜索引擎和分類目錄在使用上各有長短。全文搜索

3、引擎因為依靠軟件進(jìn)行,所以數(shù)據(jù)庫的容量非常龐大,但是,它的查詢結(jié)果往往不夠準(zhǔn)確;分類目錄依靠人工收集和整理網(wǎng)站,能夠提供更為準(zhǔn)確的查詢結(jié)果,但收集的內(nèi)容卻非常有限。為了取長補(bǔ)短,現(xiàn)在的很多搜索引擎,都同時提供這兩類查詢,一般對全文搜索引擎的查詢稱為搜索“所有網(wǎng)站“或“全部網(wǎng)站“,比如Google的全文搜索;把對分類目錄的查詢稱為搜索“分類目錄“或搜索“分類網(wǎng)站“,比如新浪搜索和雅虎中國搜索。在網(wǎng)上,對這兩類搜索引擎進(jìn)行整合,還產(chǎn)生了其它

4、的搜索服務(wù),在這里,我們權(quán)且也把它們稱作搜索引擎,主要有這兩類:⒈元搜索引擎(METASearchEngine)。這類搜索引擎一般都沒有自己網(wǎng)絡(luò)機(jī)器人及數(shù)據(jù)庫,它們的搜索結(jié)果是通過調(diào)用、控制和優(yōu)化其它多個獨(dú)立搜索引擎的搜索結(jié)果并以統(tǒng)一的格式在同一界面集中顯示。元搜索引擎雖沒有“網(wǎng)絡(luò)機(jī)器人“或“網(wǎng)絡(luò)蜘蛛“,也無獨(dú)立的索引數(shù)據(jù)庫,但在檢索請求提交、檢索接口代理和檢索結(jié)果顯示等方面,均有自己研發(fā)的特色元搜索技術(shù)。比如“metaFisher元搜

5、索引擎“,它就調(diào)用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的數(shù)據(jù)。⒉集成搜索引擎(All-in-OneSearchPage)。集成搜索引擎是通過網(wǎng)絡(luò)技術(shù),在一個網(wǎng)頁上鏈接很多個獨(dú)立搜索引擎,查詢時,點(diǎn)選或指定搜索引擎,一次輸入,多個搜索引擎同時查詢,搜索結(jié)果由各搜索引擎分別以不同頁面顯示,比如“網(wǎng)際瑞士軍刀“。二、搜索引擎的工作原理全文搜索引擎的“網(wǎng)絡(luò)機(jī)器人“或“網(wǎng)絡(luò)蜘蛛“是一種網(wǎng)絡(luò)上的

6、軟件,它遍歷Web空間,能夠掃描一定IP地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個網(wǎng)頁到另一個網(wǎng)頁,從一個網(wǎng)站到另一個網(wǎng)站采集網(wǎng)頁資料。它為保證采集的資料最新,還會回訪已抓取過的網(wǎng)頁。網(wǎng)絡(luò)機(jī)器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁,還要有其它程序進(jìn)行分析,根據(jù)一定的相關(guān)度算法進(jìn)行大量的建立索引數(shù)據(jù)庫由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進(jìn)行分析,提取相關(guān)網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的關(guān)鍵詞、關(guān)鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈

7、接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計算,得到每一個網(wǎng)頁針對頁面內(nèi)容中及超鏈中每一個關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁索引數(shù)據(jù)庫。在索引數(shù)據(jù)庫中搜索排序當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁。因為所有相關(guān)網(wǎng)頁針對該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。最后,由頁面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來

8、返回給用戶。搜索引擎的Spider一般要定期重新訪問所有網(wǎng)頁(各搜索引擎的周期不同,可能是幾天、幾周或幾月,也可能對不同重要性的網(wǎng)頁有不同的更新頻率),更新網(wǎng)頁索引數(shù)據(jù)庫,以反映出網(wǎng)頁內(nèi)容的更新情況,增加新的網(wǎng)頁信息,去除死鏈接,并根據(jù)網(wǎng)頁內(nèi)容和鏈接關(guān)系的變化重新排序。這樣,網(wǎng)頁的具體內(nèi)容和變化情況就會反映到用戶查詢的結(jié)果中?;ヂ?lián)網(wǎng)雖然只有一個,但各搜索引擎的能力和偏好不同,所以抓取的網(wǎng)頁各不相同,排序算法也各不相同。大型搜索引擎的數(shù)據(jù)

9、庫儲存了互聯(lián)網(wǎng)上幾億至幾十億的網(wǎng)頁索引,數(shù)據(jù)量達(dá)到幾千G甚至幾萬G。但即使最大的搜索引擎建立超過二十億網(wǎng)頁的索引數(shù)據(jù)庫,也只能占到互聯(lián)網(wǎng)上普通網(wǎng)頁的不到30%,不同搜索引擎之間的網(wǎng)頁數(shù)據(jù)重疊率一般在70%以下。我們使用不同搜索引擎的重要原因,就是因為它們能分別搜索到不同的內(nèi)容。而互聯(lián)網(wǎng)上有更大量的內(nèi)容,是搜索引擎無法抓取索引的,也是我們無法用搜索引擎搜索到的。你心里應(yīng)該有這個概念:搜索引擎只能搜到它網(wǎng)頁索引數(shù)據(jù)庫里儲存的內(nèi)容。你也應(yīng)該有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論