2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩174頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、作為一種通用的數(shù)據(jù)結(jié)構(gòu),圖可以用來表示數(shù)據(jù)對象之間的復(fù)雜聯(lián)系。例如:圖可以表示化合物的分子結(jié)構(gòu),蛋白質(zhì)交互網(wǎng)絡(luò),社會網(wǎng)絡(luò)等。隨著科學(xué)與工程領(lǐng)域中圖數(shù)據(jù)的大量出現(xiàn)和累積,圖數(shù)據(jù)管理已成為數(shù)據(jù)管理領(lǐng)域一個(gè)重要和熱點(diǎn)研究的子領(lǐng)域。圖數(shù)據(jù)庫查詢處理是其中最重要的研究分支之一,其對圖相關(guān)的絕大部分處理和應(yīng)用(例如:圖挖掘、化學(xué)數(shù)據(jù)庫PubChem)起著基礎(chǔ)支撐作用。本文主要對圖數(shù)據(jù)庫中的查詢處理技術(shù)進(jìn)行深入研究,歸納總結(jié)了現(xiàn)有研究成果的主要思想和

2、優(yōu)缺點(diǎn),提出了一些新的圖數(shù)據(jù)庫查詢處理方法,主要研究成果如下:
  1.提出一種圖數(shù)據(jù)庫中高效處理超圖包含查詢的新方法。新方法綜合的從圖數(shù)據(jù)庫的壓縮組織、構(gòu)造有效的特征索引以及基于壓縮組織來處理查詢?nèi)齻€(gè)方面著手考慮問題。(1)在圖數(shù)據(jù)庫的壓縮組織方面,提出圖數(shù)據(jù)庫的有效組織方法,以提高整體查詢處理效率?,F(xiàn)有的采用過濾-驗(yàn)證機(jī)制的方法將圖數(shù)據(jù)庫中的圖逐個(gè)的獨(dú)立存放。提出方法將圖數(shù)據(jù)庫中圖結(jié)構(gòu)化的壓縮組織起來。通過壓縮組織方法,產(chǎn)生一

3、個(gè)邏輯數(shù)據(jù)結(jié)構(gòu)GPTree,其中記錄了數(shù)據(jù)庫中圖的公共子圖的信息。為了優(yōu)化的構(gòu)造GPTree,形式化定義了最優(yōu)誘導(dǎo)子圖選擇問題;證明了其是一個(gè)NP難問題,并提出了一個(gè)近似比為2的近似算法。(2)在構(gòu)造有效的特征索引方面,提出高效而不依賴于歷史查詢的子圖索引特征生成方法,以及兩種索引結(jié)構(gòu)CRGraph和FGPForest。首先基于分析,給出索引特征的顯著性度量。提出了找出所有顯著性不小于用戶需求的索引特征的方法,即精確索引特征生成方法。為

4、了適應(yīng)需要更加快速的生成索引的應(yīng)用場景,提出了特征索引構(gòu)造的一個(gè)近似方法。這兩種方法都是基于圖模式挖掘的方法。為了高效使用索引特征,對索引特征進(jìn)行排序;并且基于理論分析給出了求解其最優(yōu)排序的算法。(3)在基于壓縮組織來處理查詢方面,提出從多個(gè)圖到一個(gè)圖的子圖同構(gòu)檢測的新方法,稱為GPTreeTest?,F(xiàn)有方法逐個(gè)的考察每個(gè)圖對進(jìn)行檢測,新方法能夠利用壓縮組織中公共子圖的信息,顯著減少對多個(gè)圖的子圖同構(gòu)檢測的總時(shí)間。最后,在真實(shí)數(shù)據(jù)集和合

5、成數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,提出方法比目前最好方法高效1至2個(gè)數(shù)據(jù)量級。
  2.提出不確定圖數(shù)據(jù)庫上概率top-k子圖匹配查詢的新問題、以及一種查詢處理方法。首先給出不確定圖數(shù)據(jù)模型,結(jié)合現(xiàn)實(shí)需求提出概率top-k子圖匹配查詢問題。一個(gè)頂點(diǎn)的鄰居子圖是由其距離不大于給定閾值內(nèi)的所有頂點(diǎn)和邊構(gòu)成的子圖?;趫D結(jié)構(gòu)空間相關(guān)性的特點(diǎn),以附帶概率信息的鄰居子圖為基礎(chǔ),設(shè)計(jì)一種有效的索引結(jié)構(gòu)NG-Index。NG-Index索引可以很容易實(shí)

6、現(xiàn)于成熟的關(guān)系數(shù)據(jù)庫中,具有強(qiáng)健壯性。提出一種高效的基于搜索樹的算法來進(jìn)行查詢處理。其中運(yùn)用了一種概率剪枝技術(shù)來提高性能。最后通過實(shí)驗(yàn)考察并證實(shí)提出方法具有良好的效率和可擴(kuò)展性。
  3.提出結(jié)合概念分層的圖統(tǒng)計(jì)信息定義以及查詢處理方法。具體地說,給出了結(jié)合頂點(diǎn)關(guān)聯(lián)的概念分層,根據(jù)用戶指定的搜索興趣來高效地計(jì)算數(shù)據(jù)圖中統(tǒng)計(jì)信息的方法。首先提出一種結(jié)合概念分層的圖統(tǒng)計(jì)分布表示。本文將用戶搜索興趣建模為概念圖,并以用戶概念圖的子圖匹配

7、計(jì)數(shù)為基礎(chǔ)來表示圖統(tǒng)計(jì)信息。其次,為了高效計(jì)算此統(tǒng)計(jì)分布信息,設(shè)計(jì)了一種基于子圖密度的索引結(jié)構(gòu)并提出兩階段的計(jì)算方法:(1)先基于索引快速地去除數(shù)據(jù)圖中的不相關(guān)邊并將數(shù)據(jù)圖打散劃分為若干小尺寸的連通圖;(2)再對這些連通小圖分別計(jì)算統(tǒng)計(jì)信息,最后合并得出結(jié)果。在連通小圖上計(jì)算統(tǒng)計(jì)信息的核心是概念圖的子圖匹配計(jì)數(shù)問題。文中針對這個(gè)子問題著重提出兩種高效算法:前向計(jì)算算法和后向計(jì)算算法。這種在精確計(jì)算之前將數(shù)據(jù)大圖快速打散為多個(gè)小圖的分治思

8、想是總體效率提升的關(guān)鍵所在。最后,在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明所提出方法具有良好的效率和可擴(kuò)展性。
  4.提出了一種較大尺寸的標(biāo)簽圖子圖同構(gòu)檢測方法及其應(yīng)用方法。所提出的檢測方法是一種基于搜索的方法。本文從標(biāo)簽圖的特性出發(fā),以標(biāo)簽信息和圖拓?fù)浣Y(jié)構(gòu)相結(jié)合的方式來縮減搜索空間。首先,將標(biāo)簽按照出現(xiàn)的頻率比轉(zhuǎn)換為數(shù)值。然后,將標(biāo)簽信息與結(jié)構(gòu)相結(jié)合,來構(gòu)造多組細(xì)粒度的頂點(diǎn)不變量。頂點(diǎn)不變量是關(guān)于頂點(diǎn)的固有屬性,其在同構(gòu)映射下保持不變。借

9、助于所構(gòu)造的細(xì)粒度的頂點(diǎn)不變量,將標(biāo)簽信息沿圖拓?fù)浣Y(jié)構(gòu)傳播開來,并縮減匹配頂點(diǎn)候選集來減小搜索空間。再次,基于頂點(diǎn)不變量生成了細(xì)粒度的剪枝條件。由于結(jié)合標(biāo)簽信息和拓?fù)浣Y(jié)構(gòu),這些條件具有更強(qiáng)的剪枝能力。另外,將提出檢測方法中的技術(shù)細(xì)節(jié)應(yīng)用到第2章提出的GPTree結(jié)構(gòu)上,來顯示其可用來優(yōu)化已有方法的適用性。最后實(shí)驗(yàn)結(jié)果表明,提出方法具有良好的高效性,同時(shí)應(yīng)用新技術(shù)的GPTreeTest*算法效率優(yōu)于原始方法GPTreeTest。
 

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論