基于小世界模型的高維向量查詢技術研究.pdf_第1頁
已閱讀1頁,還剩69頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、高維索引作為模式識別、內容檢索等領域的關鍵技術,其目的在于建立特征庫的索引結構提高特征向量查詢效率,但其在高維情況下存在的“維度災難”問題一直困擾著高維特征向量查詢的性能提升。自上世紀六七十年代起,研究人員提出了許多種類的高維索引解決方案,但迄今仍然沒有出現(xiàn)一種在各方面性能都能令人滿意的索引技術,相關領域對良好的高維索引技術的需求仍然迫切。
  本文受復雜網絡中“六度分隔”現(xiàn)象的啟發(fā),設計了一種基于小世界模型的新型高維索引技術,并

2、給出了相應的范圍查詢,近似k近鄰查詢和索引維護算法。該索引維護一定的鄰居節(jié)點分布,包括近鄰連接和遠程連接,并將高維索引中向量查詢的過程類比于圖上鄰居節(jié)點間的跳躍,通過逐跳地往目標方向逼近最終找到目標節(jié)點,因此該索引被命名為逐跳逼近索引。同時,通過對相關理論研究證明的總結,本文對該索引模型作了展開分析,說明了在簡化模型上其查詢平均路徑長度的理論上界。最后,本文進一步提出了若干基于小世界模型的組合索引方案,并結合數(shù)據(jù)庫系統(tǒng)將上述高維索引推向

3、實際應用。具體而言,本文的詳細工作包括:
  第一,本文參照小世界網絡的理論研究成果,對項目組的逼近索引結構進行了多項改進:額外添加了一定比例的隨機遠程連接,以提供遠程跳躍的捷徑,進一步提高了索引查詢性能;取消范圍限制穩(wěn)定各節(jié)點的度,以保證圖在各種實際情況中的連通性,從而使得索引能夠較好地處理數(shù)據(jù)分布不均和小庫容量等實際應用中常見的查詢場景。
  第二,本文進一步完善了逐跳逼近索引的范圍查詢和近似kNN查詢算法以及索引維護算

4、法,并將該索引應用于隨機生成庫及實際圖像特征庫。結合理論分析和實驗數(shù)據(jù),探討了逐跳逼近索引的關鍵參數(shù)性質特點,以及應用到不同場景時的預期效果和注意事項。
  第三,最后,本文分析了逐跳逼近索引的優(yōu)點和不足,結合目前已有的高維索引技術,給出了若干分層組合索引的算法。此外,為推動該索引更快的應用于實際系統(tǒng),提出了結合數(shù)據(jù)庫系統(tǒng)的逐跳逼近索引應用,借助成熟的數(shù)據(jù)庫系統(tǒng)解決了算法分布式拓展和內存緩存管理等多個實際運用問題。
  相關

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論