基于分布式哈希表的對等網(wǎng)絡(luò)數(shù)據(jù)檢索研究.pdf_第1頁
已閱讀1頁,還剩147頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、P2P(peer-to-peer)系統(tǒng)是一個迅速發(fā)展的研究領(lǐng)域。P2P系統(tǒng)的應(yīng)用已從傳統(tǒng)的文件共享領(lǐng)域逐步擴展到更廣泛的廣域分布計算領(lǐng)域,因而需要P2P系統(tǒng)提供確定性定位與低查詢開銷等關(guān)鍵特性。基于分布式哈希表(DistributedHashTable,簡稱DHT)的P2P系統(tǒng)在廣域網(wǎng)支持巨量集的數(shù)據(jù)一致性分布,并提供低跳步的路由精確定位,以及具有低查詢開銷和高容錯自組織等優(yōu)良性能,已經(jīng)成為學(xué)術(shù)界研究的熱點。 然而,分布式哈希表

2、技術(shù)的引入在帶來其先進性的變革影響的同時,也帶來了新的挑戰(zhàn)性問題。第一,由于拓?fù)涫且环N結(jié)構(gòu)化的拓?fù)?,相對比非結(jié)構(gòu)化的拓?fù)洌渚S護開銷顯著加大。特別是在大規(guī)模和動蕩的網(wǎng)絡(luò)環(huán)境下,維護開銷相當(dāng)可觀。第二,由于DHT采用哈希技術(shù)僅提供精確查詢匹配,使用查詢受到極大的約束。如何突破精確查詢匹配的限制,增強P2P查詢能力是當(dāng)前P2P系統(tǒng)的急需解決的問題。本文針對上述問題,主要主要研究貢獻如下: 1.結(jié)構(gòu)化DHT系統(tǒng)能夠提供高效、可靠的服務(wù)

3、,有著巨大的潛在應(yīng)用前景。然而在典型的動態(tài)環(huán)境下的結(jié)構(gòu)化對等網(wǎng)絡(luò)存在的維護開銷過大問題,尤其是在高度動態(tài)的環(huán)境下。在本篇論文中,我們通過P2P網(wǎng)絡(luò)中的節(jié)點會話特性,提出了一個基于DHI拓?fù)涞某壒?jié)點對等網(wǎng)絡(luò)SPChord來控制維護開銷。該系統(tǒng)使用了一個簡單但是有效的聚簇技術(shù)生成超級節(jié)點對等網(wǎng)絡(luò)。主要的技術(shù)優(yōu)點有:(1)簇的管理方式是自然演化的,管理開銷很小。由于它不依賴于任何附加的前提條件,所以它可以直接應(yīng)用于現(xiàn)有的DHT算法的改進。(

4、2)即使簇的大小很小,它也能大大改善系統(tǒng)的維護開銷和性能,這就意味著相比于現(xiàn)有的普通DHT對等網(wǎng)絡(luò)系統(tǒng)來說,它有著更好的可擴展性,使得DHT系統(tǒng)能夠更好地適應(yīng)動態(tài)網(wǎng)絡(luò)。仿真結(jié)果表明維護開銷得到了極大的減少,而查找失敗率也有很大程度的減小,同時查找性能也大大提高。 2.針對當(dāng)前對等網(wǎng)絡(luò)信息檢索系統(tǒng)存在的無法適應(yīng)高維文本空間以及檢索代價過高的問題,提出了基于索引匯聚的對等網(wǎng)絡(luò)信息檢索系統(tǒng)IRSPC,該系統(tǒng)構(gòu)建在SPChord疊加網(wǎng)之

5、上,主要的創(chuàng)新點有:(1)IRSPC綜合了結(jié)構(gòu)化對等網(wǎng)絡(luò)和非結(jié)構(gòu)化對等網(wǎng)絡(luò)的查詢方式,并引入了信息檢索領(lǐng)域的評價機制,保證和查詢相關(guān)程度高的文檔能以較小的代價優(yōu)先被查詢到。(2)關(guān)鍵詞權(quán)重的計算完全是分布式的,不依賴于集中式的統(tǒng)計數(shù)據(jù)(如TFIDF的計算)。(3)IRSPC能適應(yīng)高維大文本集的全文檢索,并且具有良好的可擴展性和查詢精度。 3.針對當(dāng)前DHT系統(tǒng)多關(guān)鍵詞檢索效率低下、網(wǎng)絡(luò)帶寬開銷過大的問題,我們采用了TFIDF關(guān)鍵

6、詞賦權(quán)技術(shù)和關(guān)鍵詞關(guān)聯(lián)關(guān)系挖掘以改進對等網(wǎng)絡(luò)關(guān)鍵詞檢索效率,提出了基于關(guān)聯(lián)關(guān)鍵詞集檢索的DHT對等網(wǎng)絡(luò)關(guān)鍵詞檢索系統(tǒng)pKSS。pKSS的主要的創(chuàng)新點有:(1)通過WWW或FTP搜索站點的查詢?nèi)罩就诰蜿P(guān)鍵詞之間的關(guān)聯(lián)關(guān)系,并根據(jù)關(guān)鍵詞之間的關(guān)聯(lián)關(guān)系對文檔索引詞和查詢語句中的查詢詞分組以支持基于關(guān)聯(lián)關(guān)鍵詞集的對等網(wǎng)絡(luò)檢索。(2)通過采用TFIDF技術(shù),選出文檔最重要的L個索引詞并連同關(guān)聯(lián)關(guān)鍵詞集發(fā)布到對等網(wǎng)絡(luò)。當(dāng)用戶發(fā)布查詢時,查詢中的關(guān)鍵

7、詞按照其IDF值和相互之間的關(guān)聯(lián)關(guān)系進行分組,因而使pKSS的關(guān)鍵詞檢索效率在關(guān)聯(lián)關(guān)鍵詞集劃分的基礎(chǔ)上得到大大提高。實驗結(jié)果清楚地表明:pKSS在索引的插入和存儲開銷上要遠遠低于KSS,在查詢的帶寬開銷上也明顯比標(biāo)準(zhǔn)的分布式倒排索引低。 4.針對當(dāng)前元數(shù)據(jù)描述規(guī)范廣泛采用XML的現(xiàn)狀,提出了基于DHT對等網(wǎng)絡(luò)的XML元數(shù)據(jù)索引和查詢系統(tǒng)PXIQ。PXIQ系統(tǒng)為XML數(shù)據(jù)查詢提供了良好的可擴展性和豐富的表達能力。除DHT內(nèi)在的固有

8、特性之外,PXIQ還有幾個獨特的優(yōu)特點:首先,PXIQ能針對XML實施語義查詢,查詢語言采用XPath;其次,PXIQ能支持DHT對等網(wǎng)絡(luò)中的范圍查詢;第三,PXIQ能支持DHT對等網(wǎng)絡(luò)中的關(guān)鍵字檢索和語義結(jié)構(gòu)查詢。從實驗結(jié)果可以看到,PXIQ能夠適應(yīng)具有大量主機節(jié)點的對等網(wǎng)絡(luò)環(huán)境。 5.針對當(dāng)前DHT對等網(wǎng)絡(luò)數(shù)據(jù)檢索中存在的“熱點”(負(fù)載不均衡)問題,本章提出了基于負(fù)載重定向的RLBA負(fù)載均衡算法以提高數(shù)據(jù)檢索的性能和效率。R

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論