2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、關系數(shù)據(jù)庫關鍵詞搜索為不了解數(shù)據(jù)庫模式、不具備結構化查詢語言知識的普通用戶提供了一種有效獲取數(shù)據(jù)庫信息的方式,越來越受到研究人員的關注。許多研究把關系數(shù)據(jù)轉換成一個數(shù)據(jù)圖,圖中的節(jié)點和邊可以關聯(lián)文本內容。數(shù)據(jù)圖能夠還原數(shù)據(jù)原本的存在形式和數(shù)據(jù)間的關系,因此數(shù)據(jù)庫關鍵詞查詢被轉化為對數(shù)據(jù)圖的檢索。當前,隨著海量數(shù)據(jù)不斷涌現(xiàn),數(shù)據(jù)庫的規(guī)模與日俱增,元組之間關系也愈加復雜,關鍵詞查詢任務同時具備了數(shù)據(jù)密集型和計算密集型的特征。如何存儲大規(guī)模數(shù)

2、據(jù)圖、如何高效檢索大規(guī)模數(shù)據(jù)圖以及如何保證海量數(shù)據(jù)環(huán)境下關鍵詞查詢的查全率等是值得研究的問題。本文針對上述問題提出了解決思路,主要工作體現(xiàn)在三個方面。
  目前關系數(shù)據(jù)的關鍵詞查詢普遍直接對RDBMS進行查詢,查詢效率受到數(shù)據(jù)庫自身性能的限制,尤其是在海量數(shù)據(jù)場景下。本文根據(jù)關系數(shù)據(jù)庫各個數(shù)據(jù)表記錄之間的主外鍵約束關系將關系數(shù)據(jù)庫中的數(shù)據(jù)轉換成數(shù)據(jù)圖并序列化存放在分布式文件系統(tǒng)HDFS中,HDFS具有良好的橫向可擴展性,為實施大規(guī)

3、模數(shù)據(jù)圖搜索奠定了基礎。
  目前對數(shù)據(jù)圖檢索算法的研究大多借鑒了BANKS中提出的逆向擴展搜索算法,后續(xù)的一些研究局限于對算法本身的微小改進,沒有考慮到對數(shù)據(jù)圖進行分布存儲、并行搜索,而現(xiàn)有串行的算法在處理大規(guī)模數(shù)據(jù)圖時不具備可擴展性。針對上述問題,本文引入分布式計算模型,把逆向搜索算法并行化,分別提出了基于MapReduce和Spark的逆向搜索算法,并做了實驗驗證,為云計算環(huán)境下的數(shù)據(jù)圖檢索提出了思路。
  BANKS

4、中提出的逆向搜索算法為了減少一定的搜索空間,在某個節(jié)點同時成為多棵結果樹的根節(jié)點的情況下只會輸出一棵結果樹。在海量數(shù)據(jù)環(huán)境下這種策略帶來的結果丟失問題會被成倍放大,本文在基于Spark的逆向搜索算法中對此做了改進。首先找出所有候選的根節(jié)點,然后從每個候選根節(jié)點出發(fā)進行前向搜索,只要根節(jié)點到包含關鍵詞的葉子節(jié)點之間存在路徑,就輸出對應的結果樹,而不考慮根節(jié)點是否已經(jīng)包含在其它結果樹中。這種方法在Spark內建的函數(shù)式轉換中實現(xiàn)方便,且提高

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論