版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、但是如果直接刪除該數(shù)據(jù)塊可能會引起系統(tǒng)抖動,為防止系統(tǒng)出現(xiàn)抖動,再次引入前文中設(shè)置的時間參數(shù)和歷史參數(shù),避免刪除當(dāng)期被引用過的數(shù)據(jù)。
本文結(jié)合分布式平臺Hadoop構(gòu)建實現(xiàn)了本方案。通過實驗表明在引入布隆過濾器之后四次測驗系統(tǒng)平均吞吐率從756.3MB/S提高到832.5MB/S,提升了10.08%;對比DDFS Indexing和Extreme Binning的重復(fù)數(shù)據(jù)刪除率和吞吐率,Adj-Dedup的重復(fù)數(shù)據(jù)刪除率高于E
2、xtreme Binning略低于DDFS Indexing,而Adj-Dedup的吞吐率高于800MB/S,Extreme Binning約為500MB/S,而DDFS Indexing吞吐率低于200MB/S。本文所設(shè)計的重復(fù)數(shù)據(jù)刪除方案,具有較好的系統(tǒng)性能。
隨著信息全球化的到來,全球數(shù)據(jù)總量呈爆炸式增長,然而物理存儲資源的增長速度遠(yuǎn)低于數(shù)據(jù)總量的增長速度,傳統(tǒng)的存儲方式也亟待改進(jìn)。根據(jù)統(tǒng)計,存儲系統(tǒng)中存在著大量的冗余數(shù)
3、據(jù),正是這些相同或者相似的冗余數(shù)據(jù)導(dǎo)致了數(shù)據(jù)總量的爆炸增長。重復(fù)數(shù)據(jù)的刪除技術(shù)可以有效識別并刪除存儲系統(tǒng)中的重復(fù)數(shù)據(jù),因此在各個存儲相關(guān)領(lǐng)域中被普遍運用。但是作為一種新興的技術(shù),依然存在有很多需要改進(jìn)的地方,如重復(fù)數(shù)據(jù)刪除索引在未命中的情況下的額外開銷、低效率的相似檢測方案以及對于零引用數(shù)據(jù)塊的存儲造成的資源浪費等。針對文件備份系統(tǒng),為了改進(jìn)以上不足,從而提升系統(tǒng)性能,設(shè)計提出了基于重復(fù)數(shù)據(jù)塊相鄰數(shù)據(jù)塊相似性的重復(fù)數(shù)據(jù)刪除方案。
4、 重復(fù)數(shù)據(jù)的刪除系統(tǒng)首先要將數(shù)據(jù)流進(jìn)行一定處理——數(shù)據(jù)分塊,使其能夠更好地進(jìn)行重復(fù)數(shù)據(jù)檢測。由于不同的分塊算法,所得到的數(shù)據(jù)塊會有很大區(qū)別,并且會直接影響到刪除重復(fù)的數(shù)據(jù)的效果。通過對不同分塊算法對比后,本文所設(shè)計的方案選擇滑動塊技術(shù)對數(shù)據(jù)流進(jìn)行劃分。在對數(shù)據(jù)塊進(jìn)行檢索之前需要對數(shù)據(jù)塊進(jìn)行散列運算得到其指紋。指紋代表著與之對應(yīng)的數(shù)據(jù)塊,是進(jìn)行重復(fù)檢測的基本單位。不同的散列運算算法計算出的指紋的精度也有不同,并且發(fā)生哈希碰撞的可能性也有
5、區(qū)別。本文選用160位的SHA-1安全哈希算法,其發(fā)生哈希碰撞的概率分布區(qū)間為2-55-2-75,能夠滿足系統(tǒng)的需要。由于在PB級存儲系統(tǒng)中,其指紋索引過大無法完全存放在內(nèi)存中,導(dǎo)致需要訪問硬盤,這就給檢索帶來了更多的開銷。對此引入Bloom Filter。Bloom Filter能夠快速的判斷某個元素滿足某集合與否。
在進(jìn)行重復(fù)數(shù)據(jù)刪除相同檢測之后,系統(tǒng)中依然存儲有海量的相似數(shù)據(jù)。如果對所有數(shù)據(jù)塊都進(jìn)行相似檢測是不實際的。為
6、了更好更高效的檢測相似數(shù)據(jù),本文建立了一個數(shù)據(jù)塊價值評價模型,基于此設(shè)定了一個相似檢測的閾值。相似檢測的閾值是根據(jù)數(shù)據(jù)塊在某一期的熱度值和前一期的歷史價值以及重復(fù)率計算得出。其中熱度值是通過該數(shù)據(jù)塊在這一期的被引用次數(shù)和最后訪問時間計算得出。前一期的歷史價值是根據(jù)前一期該數(shù)據(jù)塊的熱度值乘以一個控制參數(shù)計算得出,是為了防止發(fā)生抖動而提出的。通過相似檢測閾值判定數(shù)據(jù)塊是否需要進(jìn)行相似度檢測,從而提高相似檢測的效率。
在進(jìn)行重復(fù)的數(shù)
7、據(jù)刪除之后,系統(tǒng)中仍然會存在零引用的數(shù)據(jù)塊。這些零引用的數(shù)據(jù)塊需要進(jìn)行清理。通過之前設(shè)定的序數(shù)參數(shù)可以判定數(shù)據(jù)塊是否是零引用,即當(dāng)序數(shù)參數(shù)等于零的時候,則表明該數(shù)據(jù)塊沒有被引用,所以可以被清理。但是如果直接刪除該數(shù)據(jù)塊可能會引起系統(tǒng)抖動,為防止系統(tǒng)出現(xiàn)抖動,再次引入前文中設(shè)置的時間參數(shù)和歷史參數(shù),避免刪除當(dāng)期被引用過的數(shù)據(jù)。
本文結(jié)合分布式平臺Hadoop構(gòu)建實現(xiàn)了本方案。通過實驗表明在引入布隆過濾器之后四次測驗系統(tǒng)平均吞吐率
8、從756.3MB/S提高到832.5MB/S,提升了10.08%;對比DDFS Indexing和Extreme Binning的重復(fù)數(shù)據(jù)刪除率和吞吐率,Adj-Dedup的重復(fù)數(shù)據(jù)刪除率高于Extreme Binning略低于DDFS Indexing,而Adj-Dedup的吞吐率高于800MB/S,Extreme Binning約為500MB/S,而DDFS Indexing吞吐率低于200MB/S。本文所設(shè)計的重復(fù)數(shù)據(jù)刪除方案,具
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向XML相似性重復(fù)數(shù)據(jù)的清洗方法研究.pdf
- 數(shù)據(jù)備份中基于相似性的重復(fù)數(shù)據(jù)刪除的研究.pdf
- 重復(fù)數(shù)據(jù)刪除系統(tǒng)的性能優(yōu)化研究.pdf
- 數(shù)據(jù)去重系統(tǒng)計算性能優(yōu)化方案的研究與實現(xiàn)
- 重復(fù)數(shù)據(jù)刪除技術(shù)的研究與實現(xiàn).pdf
- 數(shù)據(jù)去重系統(tǒng)計算性能優(yōu)化方案的研究與實現(xiàn).pdf
- 在線重復(fù)數(shù)據(jù)刪除技術(shù)的研究與實現(xiàn).pdf
- 重復(fù)數(shù)據(jù)刪除技術(shù)中的并行性能優(yōu)化算法研究.pdf
- 高性能重復(fù)數(shù)據(jù)檢測與刪除技術(shù)研究.pdf
- 面向負(fù)載均衡的重復(fù)數(shù)據(jù)刪除研究與優(yōu)化.pdf
- 基于Hadoop的重復(fù)數(shù)據(jù)清理模型研究與實現(xiàn).pdf
- 數(shù)據(jù)流上的相似性查詢及優(yōu)化.pdf
- 重復(fù)數(shù)據(jù)刪除
- 基于相似性的分布式文件系統(tǒng)在線去重方法研究.pdf
- 相似性學(xué)習(xí)及基于相似性的數(shù)據(jù)低維表示.pdf
- 基于相似性的分布式文件系統(tǒng)在線去重方法研究
- 廣域網(wǎng)重復(fù)數(shù)據(jù)消除方法的研究與實現(xiàn).pdf
- 基于時序參數(shù)的重復(fù)數(shù)據(jù)刪除索引研究與實現(xiàn).pdf
- 重復(fù)數(shù)據(jù)并行化研究.pdf
- 序列數(shù)據(jù)的相似性查詢研究.pdf
評論
0/150
提交評論