版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、基于P2P技術(shù)下的信息檢索研究基于基于P2P技術(shù)下的信息檢索研究技術(shù)下的信息檢索研究摘要:21世紀(jì)是信息化的世紀(jì)。社會(huì)信息化程度越高人們對(duì)信息的依賴性就越大。信息是一切思想、事實(shí)的富有想象力的表征它們以各種形式進(jìn)行記錄和傳播。信息檢索是涵蓋了文獻(xiàn)檢索、情報(bào)檢索和知識(shí)檢索的新興技術(shù)。也正是在新科技環(huán)境下,P2P技術(shù)發(fā)展勢頭強(qiáng)勁,在給萬千網(wǎng)民帶來便利的同時(shí),正促使互連網(wǎng)的運(yùn)營方式發(fā)生靜悄悄的演變,形成新的格局。P2P信息檢索將會(huì)是通往未來格
2、局的關(guān)鍵技術(shù)。正如以Google為首的Web信息搜索引擎對(duì)人們沖浪方式帶來深刻變化一樣,P2P信息檢索也將會(huì)給未來的互聯(lián)網(wǎng)帶來一場革命。本文從基于P2P搜索的發(fā)展動(dòng)機(jī)和原理入手,概述了當(dāng)前主流的P2P搜索的研究熱點(diǎn)和未來幾年的發(fā)展趨勢,以及我們圍繞P2P信息檢索所作的研究工作。關(guān)鍵詞:對(duì)等網(wǎng)絡(luò)P2P信息檢索向量空間模型潛在語義索引1、P2P技術(shù)概述對(duì)等網(wǎng)絡(luò)(peertopeer,P2P)技術(shù)并不是一種新興的技術(shù),20世紀(jì)70年代中期,源
3、于局域網(wǎng)的文件共享,P2P技術(shù)就開始流行起來了。目前大家所關(guān)注的P2P技術(shù),是原有技術(shù)的新應(yīng)用模式。下面對(duì)P2P技術(shù)進(jìn)行簡單的介紹。1.1P2P定義P2P是PeertoPeer(對(duì)等網(wǎng)絡(luò),對(duì)等計(jì)算)的簡稱,中文譯名為對(duì)等互聯(lián)或者點(diǎn)對(duì)點(diǎn)技術(shù)。在P2P網(wǎng)絡(luò)中各個(gè)節(jié)點(diǎn)被稱為peer(對(duì)等體)。P2P是一種網(wǎng)絡(luò)模型,在這種網(wǎng)絡(luò)中所有的節(jié)點(diǎn)是對(duì)等的(稱為對(duì)等點(diǎn)),各節(jié)點(diǎn)無主從之分,各節(jié)點(diǎn)具有相同的責(zé)任與能力并協(xié)同完成任務(wù)。對(duì)等點(diǎn)之間通過直接互連共
4、享信息資源、處理器資源、存儲(chǔ)資源甚至高速緩存資源等,無需依賴集中式服務(wù)器或資源就可完成。業(yè)界對(duì)于P2P的定義有多種,典型的是Intel公司和IBM公司對(duì)P2P的定義。Intel將P2P定義為“通過系統(tǒng)間的直接交換達(dá)成計(jì)算機(jī)資源與信息共享系統(tǒng)”,這些資源與服務(wù)包括信息交換、處理器時(shí)鐘、緩存和磁盤空間等。IBM將P2P定義為:“P2P系統(tǒng)由若干互聯(lián)協(xié)作的計(jì)算機(jī)構(gòu)成,且至少具有如下特性:系統(tǒng)儲(chǔ)存于邊緣化(非中央式服務(wù)器)設(shè)備的主動(dòng)協(xié)作,每個(gè)成
5、員直接從其他成員而不是從服務(wù)器的參與中受益;系統(tǒng)中的成員同時(shí)扮演服務(wù)器與客戶端的角色;系統(tǒng)應(yīng)用的用戶能夠意識(shí)到彼此的存在,構(gòu)成一個(gè)虛擬的或?qū)嶋H的群體”??傊?,P2P技術(shù)就是在不同用戶之間,不通過中繼設(shè)備直接交換數(shù)據(jù)和服務(wù)的技術(shù)。P2P網(wǎng)絡(luò)中任意節(jié)點(diǎn)既可以作為服務(wù)器為其它節(jié)點(diǎn)提供數(shù)據(jù)和服務(wù),又可以作為客戶機(jī)享用其它節(jié)點(diǎn)提供的數(shù)據(jù)和服務(wù)。隨著P2P的飛速發(fā)展,因特網(wǎng)的存儲(chǔ)模式將由目前的“內(nèi)容位于中心”模式轉(zhuǎn)變?yōu)椤皟?nèi)容位于邊緣”模式。1.2P
6、2P技術(shù)特點(diǎn)P2P以其獨(dú)特的技術(shù)特點(diǎn),成為當(dāng)今文件共享的理想平臺(tái)。P2P的技術(shù)特點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:(l)分散化:網(wǎng)絡(luò)中的資源和服務(wù)分散在所有節(jié)點(diǎn)上,通過各個(gè)節(jié)點(diǎn)間的合作,直接在節(jié)點(diǎn)之間完成內(nèi)容的傳輸和服務(wù)的實(shí)現(xiàn),避免了中心存儲(chǔ)和內(nèi)容交換可能存在的瓶頸。(2)可擴(kuò)展性:在P2P網(wǎng)絡(luò)中,節(jié)點(diǎn)在獲取資源的同時(shí)也為其它節(jié)點(diǎn)提供服務(wù)。(3)健壯性:P2P有很強(qiáng)的自適應(yīng)性,天生具有耐攻擊、高容錯(cuò)的優(yōu)點(diǎn)。(4)高性能價(jià)格比:隨著硬件技術(shù)的發(fā)展
7、,個(gè)人計(jì)算機(jī)的計(jì)算和存儲(chǔ)能力以及網(wǎng)絡(luò)帶寬等性能依照摩爾定理高速增長。采用P2P架構(gòu)可以有效地利用互聯(lián)網(wǎng)中散布的大量普通結(jié)點(diǎn),將內(nèi)容交換、計(jì)算任務(wù)或存儲(chǔ)資料分布到所有結(jié)點(diǎn)上。2、信息檢索概述2.1、信息檢索的含義對(duì)于信息檢索,主要存在時(shí)間性通訊、信息處理和文獻(xiàn)查找三種角度的認(rèn)識(shí):莫爾斯基于P2P技術(shù)下的信息檢索研究2.3.2向量空間模型向量空間模型(VectSpaceModel,VSM)克服了使用布爾模型中二元權(quán)值的缺點(diǎn),采用非二元權(quán)值來
8、表示特征項(xiàng)在文本和用戶查詢中的權(quán)重,提出了允許部分匹配的模型結(jié)構(gòu)。文本之間或者文本用戶查詢之間的(內(nèi)容)相關(guān)程度(DegreeofRelevance)通常用它們之間的相似度來度量。當(dāng)文本和查詢均被表示為向量空間模型時(shí),可以借助于向量之間的某種距離來表示二者之間的相似度,常用向量之間的內(nèi)積進(jìn)行計(jì)算,相似度越大,說明兩個(gè)文本或文本和用戶查詢之間相關(guān)度越大。因此,可以根據(jù)相似度進(jìn)行排序[4]。62.3.3概率模型概率模型(Probabilis
9、ticModel)是為了解決檢索中存在的一些不確定性而發(fā)展起來的,以數(shù)學(xué)理論中的概率論為原理的一種檢索模型。在此模型中,文本和用戶查詢的表示與布爾模型相同。同時(shí),根據(jù)用戶反饋,將文本分成相關(guān)的和無關(guān)的兩類,然后根據(jù)每個(gè)特征變量(詞)在相關(guān)文本集合和無關(guān)文本集合的分布情況來計(jì)算它們的相關(guān)概率,并將它表示成幾率。概率模型的優(yōu)勢在于有很多形式,采用嚴(yán)格的數(shù)學(xué)理論為依據(jù),能夠按照相關(guān)度概率來對(duì)檢索結(jié)果進(jìn)行排序。它的檢索效率要明顯優(yōu)于布爾模型[5
10、]。2.4信息檢索技術(shù)廣義地講,信息檢索包含信息儲(chǔ)存和信息查找兩個(gè)過程。信息儲(chǔ)存是對(duì)文獻(xiàn)進(jìn)行收集、標(biāo)引及著錄,并加以有序化編排,編制信息檢索工具的過程;信息查找是從大量的信息中查找出用戶所需的特定信息的過程。實(shí)施檢索的主要方法就是利用各種檢索工具。狹義地講,信息檢索僅僅是指信息查找,即從信息集合中找出所需信息的過程。2.4.1信息檢索技術(shù)的發(fā)展(1)手工信息檢索手工信息檢索發(fā)展于19世紀(jì)末。專業(yè)化的信息檢索產(chǎn)生于參考咨詢工作。1876年
11、召開的美國圖書館協(xié)會(huì)第一屆大會(huì)上提出了正規(guī)的參考咨詢工作概念。這個(gè)階段的信息檢索手段是書本式和卡片式,包括檢索型和資料型的工具書等。至今這些檢索工具雖然有的還在發(fā)揮作用,如書本式檢索工具,但隨著電子資源的普及,其作用已逐漸削弱[6]。(2)機(jī)械信息檢索機(jī)械信息檢索的發(fā)展期是20世紀(jì)40~50年代,生命周期很短暫,是手工檢索向計(jì)算機(jī)信息檢索的過渡階段。這一階段的主要檢索手段包括穿孔卡片和縮微制品檢索。(3)計(jì)算機(jī)信息檢索計(jì)算機(jī)信息檢索起源
12、于20世紀(jì)50年代初。1954年美國海軍兵器中心圖書館利用IBM701機(jī)開發(fā)計(jì)算機(jī)信息檢索系統(tǒng),它標(biāo)志著計(jì)算機(jī)信息檢索階段的開始。計(jì)算機(jī)信息檢索可分為四個(gè)發(fā)展階段:脫機(jī)檢索、聯(lián)機(jī)檢索、光盤檢索、網(wǎng)絡(luò)檢索。網(wǎng)絡(luò)信息檢索是由網(wǎng)絡(luò)站點(diǎn)、網(wǎng)頁瀏覽器和搜索引擎以及網(wǎng)絡(luò)支撐組成的檢索系統(tǒng),其中的核心部分不是眾多站點(diǎn),而是網(wǎng)絡(luò)瀏覽器和具有收集、檢索功能的搜索引擎。網(wǎng)絡(luò)信息檢索開始于20世紀(jì)90年代初。1991年思維機(jī)等公司、明尼蘇達(dá)大學(xué)、歐洲高能粒子
13、協(xié)會(huì)分別推出了因特網(wǎng)上的檢索工具WAIS、GOPHER和WWW。目前,網(wǎng)絡(luò)瀏覽器WWW因其集文本、圖像、聲音等多媒體信息于一體的巨大優(yōu)點(diǎn),已占信息服務(wù)的主導(dǎo)地位,基于Web的搜索引擎已成為最重要的信息檢索工具。著名的、且經(jīng)典的有Yahoo等搜索引擎,Google是目前世界上最大的搜索引擎。2.4.2信息檢索方法根據(jù)DavidLewis和KarenSparkJones的觀點(diǎn),目前的知識(shí)管理結(jié)構(gòu)中,信息檢索可以分為以下三個(gè)領(lǐng)域[7]:數(shù)據(jù)檢
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- P2P信息檢索的研究.pdf
- 基于P2P的生物信息檢索.pdf
- P2P系統(tǒng)中基于資源特征的信息檢索技術(shù).pdf
- 基于路由信息表的P2P信息檢索機(jī)制研究.pdf
- P2P環(huán)境下基于內(nèi)容的圖像檢索技術(shù)研究.pdf
- 基于興趣度的P2P信息檢索機(jī)制研究.pdf
- 基于社區(qū)的P2P信息檢索系統(tǒng)研究.pdf
- P2P下基于“科研知識(shí)本體”的信息檢索的研究與實(shí)現(xiàn).pdf
- P2P系統(tǒng)中信息檢索關(guān)鍵技術(shù)的研究.pdf
- 基于P2P的信息共享技術(shù)的研究.pdf
- 基于非結(jié)構(gòu)化的P2P信息檢索關(guān)鍵技術(shù)研究.pdf
- P2P下基于“科研知識(shí)本體”的信息檢索的Top-k技術(shù)的研究與實(shí)現(xiàn).pdf
- 基于語義的p2p信息檢索雙層框架的構(gòu)建與實(shí)現(xiàn)
- 基于P2P匿名系統(tǒng)下的信息隱藏技術(shù)研究.pdf
- 基于P2P技術(shù)的ITS信息采集平臺(tái)研究.pdf
- 基于P2P的網(wǎng)絡(luò)戲曲音樂檢索技術(shù)的研究與實(shí)現(xiàn).pdf
- P2P環(huán)境下基于局部信息的信任模型研究.pdf
- 基于語義的P2P信息檢索雙層框架的構(gòu)建與實(shí)現(xiàn).pdf
- P2P系統(tǒng)中的信息檢索理論及應(yīng)用研究.pdf
- 基于小世界理論的P2P文本檢索研究.pdf
評(píng)論
0/150
提交評(píng)論