基于數(shù)據(jù)挖掘的文件元數(shù)據(jù)預取研究與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、在大規(guī)模的文件存儲系統(tǒng)中,元數(shù)據(jù)訪問性能的優(yōu)化對文件系統(tǒng)的整體性能提高有著非常重要的影響。為了使元數(shù)據(jù)服務(wù)的性能達到最優(yōu),建立一種基于元數(shù)據(jù)預取有效的、正確的模型顯得尤其重要。
  然而,目前存在的緩存預取算法大多是設(shè)計來應(yīng)用在文件數(shù)據(jù)的存取訪問中,沒有考慮到元數(shù)據(jù)訪問的特征與元數(shù)據(jù)本身尺寸較小的特點。若將適用于文件數(shù)據(jù)的緩存預取算法應(yīng)用于元數(shù)據(jù)的預取操作中顯然不具有針對性,反而可能導致訪問效率低下。針對這種情況,本文提出一種利用

2、存儲系統(tǒng)中的元數(shù)據(jù)操作日志文件對用戶未來可能要操作的元數(shù)據(jù)進行成組預取的模型,并設(shè)計了充分體現(xiàn)元數(shù)據(jù)特點的緩存和預取的新算法。通過對n-gram預測模型的分析,考慮到元數(shù)據(jù)之間的長距離信息的重要性,引入數(shù)據(jù)挖掘技術(shù)來輔助n-gram模型來實現(xiàn)元數(shù)據(jù)成組預取。通過評估不同參數(shù)值n對模型的影響,本文選用3-gram模型作為預測模型;并綜合運用3-gram預測模型和數(shù)據(jù)挖掘相結(jié)合的方法來實現(xiàn)元數(shù)據(jù)的成組預取,提高元數(shù)據(jù)訪問的緩存命中率,縮短元

3、數(shù)據(jù)訪問請求的平均響應(yīng)時間,從而提高元數(shù)據(jù)的訪問效率。
  模擬實驗證明,對于不同用戶的文件元數(shù)據(jù)操作日志序列,新元數(shù)據(jù)預取模型的Cache(緩存)命中率與NEXUS算法相比平均提高了3.9%,與LRU算法比較平均提高了16%。但是新元數(shù)據(jù)預取算法的空間復雜度較高,不利于其應(yīng)用于真實的文件系統(tǒng)。為將元數(shù)據(jù)預取算法應(yīng)用于文件系統(tǒng)中,文中實現(xiàn)了在線元數(shù)據(jù)預取改進算法。該在線改進算法支持增量的頻繁閉項集挖掘,且不保留中間挖掘信息,很大程

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論