濃縮數(shù)據(jù)立方高效實化和快速查詢方法研究.pdf_第1頁
已閱讀1頁,還剩106頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、聯(lián)機分析處理(OLAP)服務(wù)器中以數(shù)據(jù)立方作為基本的數(shù)據(jù)模型。為了提高OLAP查詢效率,數(shù)據(jù)立方的構(gòu)建成為許多研究的焦點。除了可以利用濃縮數(shù)據(jù)立方來減少數(shù)據(jù)立方的尺寸,從而大幅減少數(shù)據(jù)立方的計算時間與存儲開銷外,在應(yīng)用實踐中,往往還可以通過預(yù)先將數(shù)據(jù)立方進行實化的方法提高OLAP的查詢響應(yīng)速度。因此,進一步研究復(fù)雜數(shù)據(jù)立方的快速計算方法、濃縮數(shù)據(jù)立方在不同存儲介質(zhì)中的高效實化方法、以及如何利用實化數(shù)據(jù)快速響應(yīng)查詢等具有重要意義。

2、  為了解決層次結(jié)構(gòu)引入到數(shù)據(jù)立方的構(gòu)建中帶來的問題,提出了層次前綴立方的結(jié)構(gòu)。層次結(jié)構(gòu)帶來了兩個主要問題:一是立方格上的節(jié)點急劇增加,它的模型更加復(fù)雜,為了有效對其計算,需要開發(fā)新的立方格遍歷方法;二是數(shù)據(jù)立方中需要實化的元組數(shù)急劇增加,為有效利用空間,需要研究新的存儲模式,以消除各種形式的冗余。結(jié)合基本單元組濃縮與小方內(nèi)前綴共享這兩種方法,就得到了一種新的數(shù)據(jù)立方結(jié)構(gòu):前綴立方,但是,前綴立方不能直接支持維層次。為此,對前綴立方組織

3、結(jié)構(gòu)進行擴展,使之能夠計算層次數(shù)據(jù)立方,并提出了一種新的結(jié)構(gòu):層次前綴立方(HierPrefixCube),將層次數(shù)據(jù)立方組織成一組共享前綴簇樹,從而在數(shù)據(jù)立方尺寸壓縮、數(shù)據(jù)立方元組恢復(fù)以及數(shù)據(jù)立方查詢這幾個方面求得了平衡。試驗結(jié)果表明,層次前綴立方在實現(xiàn)了基于維層次查詢的同時,其計算時間代價較低,對數(shù)據(jù)立方尺寸壓縮的效果也很明顯。
  預(yù)先計算并實化數(shù)據(jù)立方,可大大縮短OLAP查詢響應(yīng)時間。但在外存存儲實化數(shù)據(jù),仍會帶來大量的I

4、/O操作。隨著內(nèi)存價格逐漸地降低,將數(shù)據(jù)立方的一個子集在內(nèi)存實化,將特別適用于有時間約束的聯(lián)機分析處理環(huán)境。為此,在現(xiàn)有技術(shù)的基礎(chǔ)上,以元組為實化單元構(gòu)建適用于濃縮數(shù)據(jù)立方的內(nèi)存實化數(shù)據(jù)選擇模型。以內(nèi)存空間至少能容納最細粒度數(shù)據(jù)小方為前提,在內(nèi)存中構(gòu)造兩級元組存儲結(jié)構(gòu),達到避免數(shù)據(jù)立方重新計算,快速準確響應(yīng)查詢的目的。并進一步對查詢進行優(yōu)化,構(gòu)造性能更好的選擇模型。由于最細粒度小方元組和其它一些粗粒度元組都在內(nèi)存中,避免了費時的外存存取

5、,數(shù)據(jù)立方更新和維護代價也得以降低。試驗證明,在內(nèi)存實化數(shù)據(jù)立方可有效降低查詢響應(yīng)時間,濃縮數(shù)據(jù)立方優(yōu)先小尺寸是內(nèi)存實化元組幾種不同的選擇模型中時間最優(yōu)的。
  通過在內(nèi)存實化數(shù)據(jù)立方可以縮短查詢響應(yīng)時間,但易受內(nèi)存空間的限制,很難滿足尺寸較大數(shù)據(jù)立方的實化要求。隨著閃存技術(shù)的快速發(fā)展,基于NAND閃存的固態(tài)硬盤具有了讀取速度快、功耗低等優(yōu)點,且其成本要比內(nèi)存低得多,訪問速度比傳統(tǒng)硬盤要快得多。為此,結(jié)合濃縮數(shù)據(jù)立方的元組存儲特征

6、,提出了在內(nèi)存實化粗粒度的小方,在閃存實化細粒度的元組,在硬盤存放事實表的三級存儲結(jié)構(gòu)。由于閃存具有讀、寫、擦除的時間延遲不均衡、非本地更新和擦除次數(shù)受限等特性,對于閃存中存放的實化數(shù)據(jù)立方元組采用了多級動態(tài)完美哈希索引,并把實化過程中的寫操作轉(zhuǎn)變?yōu)榇谢牟僮餍蛄校灾鹨蛔芳拥姆绞浇鉀Q了由數(shù)據(jù)插入引發(fā)的閃存“頻繁寫”問題。實驗結(jié)果表明,基于該索引結(jié)構(gòu)的數(shù)據(jù)立方存儲方法,既能提供高于磁盤存儲的查詢響應(yīng)速度,又能避免內(nèi)存空間不足的問題。<

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論