版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、近年來,互聯網技術得到了前所未有的巨大發(fā)展。它給我們帶來了一種全新的生活方式,對我們的生活帶來了極大的方便?;ヂ摼W成功的關鍵在于其龐大的信息容量以及它的內容不需要集中進行控制。這在為用戶獲取信息提供極大的便利的同時也使得用戶對信息的查找猶如大海撈針。新的信息獲取技術.搜索引擎技術應運而生,并得到了飛速的發(fā)展。Web技術已經發(fā)展到現在的2.0,目前的互聯網中的網頁已經不再是其誕生時以文本信息為主的模樣,網頁中大量的多媒體信息(圖片,視頻剪
2、輯,音樂)使得我們的互聯網內容變得豐富多彩。這同時也促使了我們對搜索內容提出了更高的要求,比如我們想搜索某些圖片。加上基于文本的搜索技術的成熟,所以本文就以基于文本的Web圖片搜索引擎為研究對象,在對其相關技術進行了詳細的分析的基礎上,提出了一個較完整的系統(tǒng)設計方案,并且實現了一個初步的基于文本的Web圖片搜索引擎系統(tǒng)。 本文首先介紹了圖片搜索的背景,并對當前一些主流的圖片搜索引擎進行了簡要的分析。之后簡介了搜索引擎相關的技術,
3、包括其典型架構、網頁抓取、信息提取、索引、結果相關性排序等,作為本文的最基本的理論基礎。本文所使用的網頁庫的spider——WIRE,在第三章進行了相關的介紹。 本文在第四章通過細致地分析HFML文件的標記、標記、圖片uRL、網頁標題、網頁的超鏈接文本、關聯的和結構、標記、
評論
0/150
提交評論