文件系統(tǒng)語義分析技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩159頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、文件系統(tǒng)語義是指文件系統(tǒng)在其生命周期內(nèi)產(chǎn)生的一系列信息所表現(xiàn)出來的含義。相較于只能提供簡單數(shù)據(jù)塊語義的存儲設(shè)備,文件系統(tǒng)能夠提供更加豐富的語義知識來描述上層應(yīng)用的復(fù)雜行為。因此,近年來,文件系統(tǒng)語義已經(jīng)成為學(xué)術(shù)界和產(chǎn)業(yè)界日益關(guān)注的研究和發(fā)展的方向。不過,現(xiàn)有依賴定性描述型信息的語義分析方法卻面臨著巨大的挑戰(zhàn):眾多類型不同的變量要素會影響文件系統(tǒng)語義知識的發(fā)現(xiàn)過程。更糟糕的是,由于這些影響要素本身之間也可能具有相依性,使得該類方法變得日益

2、復(fù)雜且效果很難保證。在上述事實的背景下,本文提出了一系列文件相關(guān)性量化分析模型從定量的角度研究文件系統(tǒng)語義,這些模型能夠綜合地考慮不同類型要素對文件系統(tǒng)語義分析的影響,從而更加精確地挖掘隱藏在數(shù)據(jù)背后的重要文件語義信息――尤其是文件相關(guān)性信息。具體的,本文工作內(nèi)容包括:
  提出了一種文件相關(guān)性量化模型――FARMER。該模型將文件視為由若干語義要素組成的多次元向量空間,空間中的每個項元表示該文件的具體要素特征值。模型假設(shè):文件之

3、間相互關(guān)系的程度(或簡稱為文件關(guān)聯(lián)度),可以經(jīng)由計算每個文件(語義向量)之間的夾角偏差程度(相似度)而反映。這樣,文件語義就被轉(zhuǎn)換成了計算機可以處理和計算的結(jié)構(gòu)化數(shù)據(jù),文件之間的相關(guān)性問題也就轉(zhuǎn)變成了向量空間之間的相似性問題。FARMER文件相關(guān)性量化模型是進一步運用各種定量分析方法研究復(fù)雜文件系統(tǒng)語義的重要基礎(chǔ)。實驗結(jié)果表明,根據(jù)FARMER模型評估的文件關(guān)聯(lián)度能夠準確地反映現(xiàn)實系統(tǒng)中文件相關(guān)性。
  緊接著提出了一種文件相關(guān)性

4、回歸分析模型――CoMiner。該模型根據(jù)文件系統(tǒng)活動中觀測到的興趣現(xiàn)象樣本數(shù)據(jù)建立回歸方程來研究相關(guān)現(xiàn)象的數(shù)量變動關(guān)系。模型重點從兩個方面分析文件相關(guān)現(xiàn)象:首先是在其他變量要素保持不變的情況下,某一種要素的變化對興趣現(xiàn)象(如文件關(guān)聯(lián)度)的影響;其次是運用多種樣條或非樣條回歸模型將復(fù)雜的文件相關(guān)現(xiàn)象擬合成為函數(shù)關(guān)系,從而幫助更好的理解文件相關(guān)現(xiàn)象的關(guān)系形式。進一步的,CoMiner提供多種回歸方程對現(xiàn)實世界的文件相關(guān)關(guān)系進行擬合,使其能

5、夠在給定合理代價前提下做出準確的預(yù)測。將CoMiner模型評估的關(guān)系強度結(jié)果應(yīng)用到改進后FARMER文件相關(guān)性量化模型可以有效地提升后者的模型準確度:實驗表明最大能夠提升達到20%左右。
  進一步提出了一種文件自相關(guān)性時間序列分析模型――TiMiner。該模型在文件系統(tǒng)語義挖掘過程中引入時間維度,運用時間序列分析方法研究文件系統(tǒng)現(xiàn)象隨時間發(fā)生的變化。根據(jù)實際運行情況,總結(jié)了五條文件系統(tǒng)時間序列數(shù)據(jù)特征,分別是趨勢性、周期性、異常

6、觀測值、條件異方差以及非線性特征,并針對這些特征分別采用不同時間序列分析方法進行分析。研究發(fā)現(xiàn)某一時刻的文件系統(tǒng)緩存命中率狀態(tài)可以分解成為三個部分:之前時刻系統(tǒng)緩存狀態(tài)的自相關(guān)部分、時間間隔內(nèi)文件請求到達隨機分布部分和相鄰時刻狀態(tài)的差分部分。實驗結(jié)果表明,TiMiner文件系統(tǒng)緩存命中率預(yù)取模型能夠比較好的匹配歷史數(shù)據(jù)并有效地預(yù)測未來一段時間內(nèi)的狀態(tài)趨勢。
  為了論證上述三種模型的有效性,設(shè)計和實現(xiàn)了一個實際的大規(guī)模分布式智能對

7、象存儲系統(tǒng)Cappella,該系統(tǒng)集成了一系列基于文件語義挖掘的服務(wù)優(yōu)化模塊來提高整體性能。本文同時討論和展望了其他一些潛在的文件語義挖掘的應(yīng)用,諸如:文件感知、可靠性和一致性等方面的問題,以及今后可能有更進一步研究潛力的方向和方法。此外,從若干典型的分布式文件系統(tǒng)的Trace中抽取出一些常用的文件變量要素并將這些要素集成到Cappella系統(tǒng)的實驗測試環(huán)境中。實驗結(jié)果表明,本文提出的一系列文件相關(guān)性分析模型能夠有效的提升Cappell

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論