搜索引擎技術(shù)原理_第1頁(yè)
已閱讀1頁(yè),還剩3頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、搜索引擎技術(shù)原理.txt吃吧吃吧不是罪,再胖的人也有權(quán)利去增肥!苗條背后其實(shí)是憔悴,愛(ài)你的人不會(huì)在乎你的腰圍!嘗嘗闊別已久美食的滋味,就算撐死也是一種美!減肥最可怕的不是饑餓,而是你明明不餓但總覺(jué)得非得吃點(diǎn)什么才踏實(shí)。搜索引擎技術(shù)原理搜索引擎(searchengine)是指根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序搜集互聯(lián)網(wǎng)上的信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù)的系統(tǒng)。一、Web搜索引擎技術(shù)綜述(一)、引子隨著網(wǎng)絡(luò)技術(shù)的應(yīng)用與

2、發(fā)展,互連網(wǎng)已經(jīng)成為信息的重要來(lái)源地。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的,互聯(lián)網(wǎng)用戶使用網(wǎng)絡(luò)獲取信息過(guò)程中,搜索引擎也成為必不可少的工具。調(diào)查表明,當(dāng)前的所有互連網(wǎng)應(yīng)用中,網(wǎng)絡(luò)信息搜索是僅次于電子郵件的第二大應(yīng)用,而這些搜索絕大多數(shù)是專門的,高度復(fù)雜的搜索引擎實(shí)現(xiàn)的。按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:①目錄式搜索引擎

3、,以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中,由于web信息的海量性和人工處理能力、經(jīng)濟(jì)代價(jià)的限制,這類搜索引擎信息的即時(shí)性和全面性難以保證,它的優(yōu)秀代表是Yahoo等。②機(jī)器人搜索引擎,由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫(kù),并將查詢結(jié)果返回給用戶,這類搜索引擎

4、實(shí)現(xiàn)較為復(fù)雜,但能很好的實(shí)現(xiàn)信息的全面獲取和即時(shí)更新,它的優(yōu)秀代表是Google等。③元搜索引擎,這類搜索引擎沒(méi)有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶,這類搜索引擎兼集多個(gè)搜索引擎的信息,并且加入新的排序和信息過(guò)濾,可以很好的提高用戶滿意度。(二)、web搜索引擎的原理和實(shí)現(xiàn)web搜索引擎的原理通常為:首先是用蜘蛛(Spider)進(jìn)行全網(wǎng)搜索,自動(dòng)抓

5、取網(wǎng)頁(yè);然后將抓取的網(wǎng)頁(yè)進(jìn)行索引,同時(shí)也會(huì)記錄與檢索有關(guān)的屬性,中文搜索引擎中還需要首先對(duì)中文進(jìn)行分詞;最后,接受用戶查詢請(qǐng)求,檢索索引文件并按照各種參數(shù)進(jìn)行復(fù)雜的計(jì)算,產(chǎn)生結(jié)果并返回給用戶。1.利用網(wǎng)絡(luò)蜘蛛獲取網(wǎng)絡(luò)資源這是一種半自動(dòng)化的資源(由于此時(shí)尚未對(duì)資源進(jìn)行分析和理解,不能成為信息而僅是技術(shù)。與此同時(shí),Google從未停止過(guò)對(duì)其后端技術(shù)的改進(jìn),以使其技術(shù)效率更高。Google搜索技術(shù)所依托的軟件可以同時(shí)進(jìn)行一系列的運(yùn)算,且只需片

6、刻即可完成所有運(yùn)算。而傳統(tǒng)的搜索引擎在很大程度上取決于文字在網(wǎng)頁(yè)上出現(xiàn)的頻率。Google使用PageRank技術(shù)檢查整個(gè)網(wǎng)絡(luò)鏈接結(jié)構(gòu),并確定哪些網(wǎng)頁(yè)重要性最高。然后進(jìn)行超文本匹配分析,以確定哪些網(wǎng)頁(yè)與正在執(zhí)行的特定搜索相關(guān)。在綜合考慮整體重要性以及與特定查詢的相關(guān)性之后,Google可以將最相關(guān)最可靠的搜索結(jié)果放在首位。1、PageRank技術(shù):通過(guò)對(duì)由超過(guò)50000萬(wàn)個(gè)變量和20億個(gè)詞匯組成的方程進(jìn)行計(jì)算,PageRank能夠?qū)W(wǎng)頁(yè)

7、的重要性做出客觀的評(píng)價(jià)。PageRank并不計(jì)算直接鏈接的數(shù)量,而是將從網(wǎng)頁(yè)A指向網(wǎng)頁(yè)B的鏈接解釋為由網(wǎng)頁(yè)A對(duì)網(wǎng)頁(yè)B所投的一票。這樣,PageRank會(huì)根據(jù)網(wǎng)頁(yè)B所收到的投票數(shù)量來(lái)評(píng)估該頁(yè)的重要性。此外,PageRank還會(huì)評(píng)估每個(gè)投票網(wǎng)頁(yè)的重要性,因?yàn)槟承┚W(wǎng)頁(yè)的投票被認(rèn)為具有較高的價(jià)值,這樣,它所鏈接的網(wǎng)頁(yè)就能獲得較高的價(jià)值。重要網(wǎng)頁(yè)獲得的PageRank(網(wǎng)頁(yè)排名)較高,從而顯示在搜索結(jié)果的頂部。Google技術(shù)使用網(wǎng)上反饋的綜合信

8、息來(lái)確定某個(gè)網(wǎng)頁(yè)的重要性。搜索結(jié)果沒(méi)有人工干預(yù)或操縱,這也是為什么Google會(huì)成為一個(gè)廣受用戶信賴、不受付費(fèi)排名影響且公正客觀的信息來(lái)源。2、超文本匹配分析:Google的搜索引擎同時(shí)也分析網(wǎng)頁(yè)內(nèi)容。然而,Google的技術(shù)并不采用單純掃描基于網(wǎng)頁(yè)的文本(網(wǎng)站發(fā)布商可以通過(guò)元標(biāo)記控制這類文本)的方式,而是分析網(wǎng)頁(yè)的全部?jī)?nèi)容以及字體、分區(qū)及每個(gè)文字精確位置等因素。Google同時(shí)還會(huì)分析相鄰網(wǎng)頁(yè)的內(nèi)容,以確保返回與用戶查詢最相關(guān)的結(jié)果。

9、Google的創(chuàng)新并不限于臺(tái)式機(jī)。為了確保通過(guò)便攜式設(shè)備訪問(wèn)網(wǎng)絡(luò)的用戶能夠快速獲得精確的搜索結(jié)果,Google還率先推出了業(yè)界第一款無(wú)線搜索技術(shù),以便將HTML即時(shí)轉(zhuǎn)換為針對(duì)WAP、Imode、JSKY和EZWeb優(yōu)化的格式。(二)Google查詢的全過(guò)程Google查詢的全過(guò)程通常不超過(guò)半秒時(shí)間,但在這短短的時(shí)間內(nèi)需要完成多個(gè)步驟,然后才能將搜索結(jié)果交付給搜索信息的用戶。1.網(wǎng)絡(luò)服務(wù)器將查詢發(fā)送到索引服務(wù)器。索引服務(wù)器所包含的內(nèi)容與書

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論