web_9-第九章 搜索引擎的應用與評價_第1頁
已閱讀1頁,還剩21頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、,第9章 搜索引擎的應用與評價,9.1 搜索引擎的基本概念,9.1.1 搜索引擎定義 搜索引擎(Search Engine)是一種用于幫助互聯(lián)網(wǎng)用戶查詢信息的搜索工具,它以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對信息進行理解、提取、組織和處理,并為用戶提供檢索服務,從而起到信息導航的目的。9.1.2 搜索引擎的歷史   1994年春天,Michael Mauldin將John Leavitt的spider程序接入到其索引程序中

2、,創(chuàng)建了最早的真正意義上的搜索引擎Lycos。接著,Yahoo也在當年成立。今天搜索引擎的核心是網(wǎng)絡導航服務,有時搜索引擎成了門戶網(wǎng)站的代名詞,它們不僅提供網(wǎng)站搜索服務,還提供新聞、在線圖書館、詞典,以及其它網(wǎng)絡資源,涉及面越來越廣。,9.1 搜索引擎的基本概念,9.1.3 搜索引擎的分類搜索引擎按其工作方式分為兩類:網(wǎng)站分類目錄搜索引擎和基于關鍵字檢索的搜索引擎。⑴網(wǎng)站分類目錄搜索引擎網(wǎng)站分類目錄搜索引擎通過人

3、工建立一個結(jié)構(gòu)化的分類目錄體系,將搜索到的網(wǎng)站劃分到各個類別及子類下,并將每個網(wǎng)址抽象為一段摘要性信息,作為對該網(wǎng)站的概括介紹。它的優(yōu)點是層次清楚,方便用戶簡單準確地查找某一方面的信息,設計上也更簡單、容易實現(xiàn);缺點是靠人工操作工作量太大,因而搜索的站點少,更新慢;如果用戶對查詢問題的類目劃分與該分類體系不一致,則有可能找不到相應的類目,搜索只在網(wǎng)站摘要而不是全文中進行,不夠全面。,9.1 搜索引擎的基本概念,9.1.3 搜索引擎

4、的分類⑵基于關鍵字檢索的搜索引擎基于關鍵字檢索的搜索引擎,可以根據(jù)用戶用邏輯組合方式輸入的各種關鍵字(Keyword),尋找用戶所需資源的地址,然后根據(jù)一定的規(guī)則反饋給用戶包含此關鍵字詞信息的所有網(wǎng)頁的內(nèi)容摘要和指向這些網(wǎng)頁的鏈接。隨著互聯(lián)網(wǎng)信息的快速增長,搜索引擎利用其內(nèi)部的Spider(蜘蛛)或者Robots(機器人)程序,自動搜索一定范圍內(nèi)所有網(wǎng)站每個網(wǎng)頁的頭部信息,并把每頁用于描述網(wǎng)頁性質(zhì)所有詞匯作為關鍵字與網(wǎng)

5、頁的url地址一同放入數(shù)據(jù)庫供用戶查詢?;陉P鍵字檢索的搜索引擎很多,下面列舉一些具有代表性的網(wǎng)站及其搜索引擎。,9.2 搜索引擎的工作原理與評價標準,9.2.1 META標記⑴META標記的產(chǎn)生最初網(wǎng)頁的設計很復雜,需要幾個人一起來做一頁,為了讓大家都能了解這一頁的主題中心,人們開始使用META標簽,作為自己對頁面的注釋說明,同時這些說明瀏覽者看不到。接著出現(xiàn)了搜索引擎,它們首先遇到的一個障礙就是如何“自動”判定一個

6、頁面的內(nèi)容。人們想到了META標簽,檢索機器人(Robots)只須檢索頁面的META值而無須整個頁面就能了解該頁面的內(nèi)容了。人們知道了引擎的這種運作方式,于是在頁面中加入很多META標簽以提高排名,很快搜索引擎對檢索方法做了改進,對META的依賴越來越少,它們增加了自己的算法:綜合考慮META標簽、標題(TITLE)、頁面最初幾段的內(nèi)容、域名的鏈接廣泛性等。,9.2 搜索引擎的工作原理與評價標準,9.2.1 META標記⑵M

7、eta標記的用法Meta 標記是放在HTML文件的開頭部分,它的功能之一便是向搜索引擎介紹網(wǎng)頁,其它功能請參看HTML語法。在編寫Meta標記時應注意以下一些事項:①搜索引擎只會搜索Title及Keywords中的文字,所以應該保持每頁具適當而不同的Title,Description和Keywords。②關鍵詞以逗號隔開,最好不超過255個字符,重要的要放在前端。③Keywords中的關鍵詞一般不能重復多于

8、5次,否則搜索引擎會撤除登錄。④關鍵詞可適當使用一些2至3字的詞組。,9.2 搜索引擎的工作原理與評價標準,9.2.2 工作原理⑴搜索引擎的組成搜索引擎基本由三部分組成,第一部分是蜘蛛軟件(Spider),即自動的收集程序,它的作用是負責收集網(wǎng)頁的內(nèi)容;第二部分是索引器(Indexer),其作用是將收集回來的內(nèi)容進行分析,然后做一個索引;第三部分是搜索器(Searcher),即響應用戶的檢索請求。當用戶輸入關鍵字后,搜

9、索器用這個關鍵字與建立的索引器匹配,匹配后做相關性排序,再將排序結(jié)果送給用戶。 ⑵搜索引擎的工作過程搜索引擎通過某種界面(例如動態(tài)網(wǎng)頁)跟用戶交互,接受用戶查詢特定信息的請求,然后對用戶查詢請求進行分析,比如將查詢請求分解成若干關鍵字,在分析用戶請求之后,在索引數(shù)據(jù)庫中不斷進行匹配,挑出符合條件的信息,同時按照匹配程度的高低對結(jié)果進行排序,最后將排序后的結(jié)果返回給用戶。,9.2 搜索引擎的工作原理與評價標準,

10、9.2.3 信息檢索模型 信息檢索系統(tǒng)的核心是搜索引擎,它需要從紛繁復雜的大量信息中,篩選出符合用戶需求的信息。根據(jù)搜索引擎查找相關信息方式的不同,可將信息檢索分為:布爾邏輯模型、向量空間模型以及概率模型等。⑴布爾型信息檢索模型:布爾型信息檢索模型,是最早也是最簡單的信息檢索模型。在布爾檢索模型中,用戶輸入的關鍵字被轉(zhuǎn)化成布爾表達式,使用邏輯運算符將提問詞連接起來。其文檔組織形式分為兩種:順排文檔和倒排文檔。 ⑵向量空

11、間模型:向量空間模型用檢索項的多維向量空間來表示用戶的提問和文本集信息,其中每一維為一個特征。 ⑶概率模型:基于貝葉斯概率公式的概率模型不同于布爾和向量空間模型,它利用相關反饋的歸納學習方法,獲取匹配函數(shù)。在概率模型中,檢索是根據(jù)概率排序規(guī)則進行的。,9.2 搜索引擎的工作原理與評價標準,9.2.4 搜索引擎的評價標準 ⑴搜索范圍⑵檢索速度 ⑶查全率與查準率 ⑷功能水平及易用性,9.3 搜

12、索引擎的使用,9.3.1 在搜索引擎注冊 網(wǎng)站登錄到搜索引擎中的資料一般包括:網(wǎng)站名、地址(URL)、描述、關鍵字、管理員名、郵件地址。對宣傳推廣網(wǎng)站起決定作用的是前四項。但是它們在檢索過程中的優(yōu)先級別也是不同的。例如國內(nèi)的某個搜索引擎,檢索的順序依次為:網(wǎng)站名、關鍵字、描述。所以登錄時對這3項的內(nèi)容應該格外重視。 搜索引擎使用關鍵字的相關程度來決定網(wǎng)頁的先后順序。每個搜索引擎都有它自己的排列搜索結(jié)果的公式,而

13、且它們被作為機密保存起來。但基本規(guī)則是,一個網(wǎng)頁出現(xiàn)某個關鍵字的次數(shù)越多,那么,該網(wǎng)頁與關鍵字的相關程度就高,該網(wǎng)頁在搜索結(jié)果中的排列位置就越靠前。網(wǎng)頁標題、章節(jié)標題中的關鍵字,相關程度更高。,9.3 搜索引擎的使用,9.3.1 在搜索引擎注冊一個較好的辦法是:找出人們搜索某類網(wǎng)站時可能使用的所有詞匯(關鍵字),并將它們盡可能地串起來,給網(wǎng)站寫個簡短的描述。 例如,如果要注冊東北大學秦皇島分校,并且已經(jīng)列出了

14、下面的關鍵字:   教育部 東北大學   高?! ?全國招生 可以這樣寫描述: “東北大學秦皇島分校于1987年經(jīng)國家教委批準成立,隸屬教育部,是在東北大學統(tǒng)一規(guī)劃與管理下的高校,面向全國招生。開設的各專業(yè)的培養(yǎng)目標、主要課程設置以及畢業(yè)生適應范圍均和東北大學總校相同”,9.3 搜索引擎的使用,9.3.2 使用搜索引擎查找信息 ⑴運用邏輯運算符

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論