版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、隨著計算機技術發(fā)展以及電子設備普及,人類社會已經進入數字時代,信息數據在人類生活中無處不在,人類社會已經處于信息爆炸時代。隨著參與人員與設備增加,各種分布式應用系統(tǒng)數據正以前所未有速度在增長,這將使得分布式應用系統(tǒng)面臨著大數據的挑戰(zhàn)。在分布式環(huán)境下系統(tǒng)對操作處理性能以及系統(tǒng)擴展性上具有更高要求,在提高系統(tǒng)性能以及擴展性上不僅可以對處理技術進行優(yōu)化,同樣也可以通過對應用系統(tǒng)的數據管理平臺進行優(yōu)化。應用系統(tǒng)的數據管理平臺中數據組織管理形式將
2、直接影響應用系統(tǒng)的性能及擴展能力,因此研究分布式環(huán)境下大數據的組織管理具有重要的理論價值和實際價值。
分布式環(huán)境下,數據具有規(guī)模大、增長速度快、數據類型多樣等特征,這將對數據組織管理帶來全新挑戰(zhàn)。本文在分析分布式環(huán)境對大數據管理平臺提出新要求以及新挑戰(zhàn)下,在分析相關工作的基礎上,主要針對數據組織管理的數據劃分、數據塊分配和重分配以及索引技術上進行了研究,主要研究內容和成果包括:
1)針對分布式環(huán)境中大數據系統(tǒng)需要支持
3、多維查詢分析、快速加載數據以及保證系統(tǒng)擴展能力等問題,提出了一種基于混合范圍一致性Hash數據劃分策略(HRCH)。首先,根據歷史操作選擇常用的查詢屬性,使用降維技術將這些屬性進行線性化(保證線性有序),并將該線性值作為數據表的Key;其次,使用一致性Hash將數據分配到多個節(jié)點集群中;最后,在每個節(jié)點集群中使用范圍劃分策略來對數據進行劃分存儲。通過測試基準程序——YCSB來驗證HRCH的有效性,結果表明雖然HRCH在數據操作效率上略低
4、于傳統(tǒng)劃分策略,但是HRCH具有更高的數據加載能力,同時HRCH還能夠提高系統(tǒng)可擴展能力,最后HRCH還能夠很好支持多維查詢處理。
2)針對分布式環(huán)境下大數據系統(tǒng)的數據處理模式變化以及系統(tǒng)負載均衡問題,提出了一種基于負載感知的數據塊分配策略(LAFAS)。分布式環(huán)境下大數據系統(tǒng)的數據處理模式已經從“數據靠近計算”轉變?yōu)椤坝嬎憧拷鼣祿?,則數據塊位置將直接影響系統(tǒng)中計算執(zhí)行位置,從而數據位置將影響系統(tǒng)節(jié)點負載。為了盡量平衡系統(tǒng)負
5、載,LAFAS針對新加入系統(tǒng)的數據塊進行分配。首先,通過信息熵理論來計算影響節(jié)點負載因素的權值,從而可以準確計算節(jié)點負載;其次,根據節(jié)點負載情況對候選存儲新數據塊的節(jié)點集合進行裁剪,再用傳統(tǒng)策略將該新數據塊分配到候選節(jié)點集合,其能保證新數據塊不會被分配到高負載節(jié)點,從而來對系統(tǒng)負載進行調整。通過模擬實驗來驗證LAFAS有效性,結果表明在LAFAS下的系統(tǒng)比隨機及輪詢策略下的系統(tǒng)負載更為均衡,而且在LAFAS下操作處理具有更高的性能。
6、r> 3)針對分布式環(huán)境下盲目提高操作并行度并不一定能夠提高操作的響應能力,反而會很大程度增加操作過程中網絡通信代價問題上,提出了一種基于超圖的數據塊重分配策略(FASBH)來降低操作的通信代價。由于數據處理模式的變化,在保證操作并行度的前提下為了減少操作的網絡通信代價,則需要將操作訪問的數據塊盡量存儲到同一節(jié)點上,在這樣的目標上提出了FASBH。首先,選擇較為典型的歷史操作,使用超圖模型來對歷史操作所訪問的數據塊的相關度進行衡量;其
7、次,使用超圖劃分算法對數據塊超圖進行劃分,該劃分算法保證操作一定并行度的前提下盡量將相關度高的數據塊劃分到同一節(jié)點上,從而降低操作執(zhí)行過程中的網絡通信代價;最后,以最小的遷移代價對數據塊進行遷移。通過實驗來驗證FASBH的有效性,結果表明FASBH在數據塊相關性衡量以及系統(tǒng)處理性能上都比傳統(tǒng)策略(基于圖的策略)具有更高的效率。
4)針對大數據的特定應用(微博系統(tǒng))中對博文建立實時索引效率低的問題上,提出了一種基于主題的實時分布
8、式索引技術(RDIBT)。RDIBT首先使用主題判斷技術對新加入系統(tǒng)的博文的主題進行推斷;其次,在該博文對應的主題索引上對該博文建立索引,每個主題索引都是多層索引結構,該結構能夠保證最新加入系統(tǒng)的博文只在該索引結構的最低層索引上進行操作,之后再批量將低層索引更新到高層索引上,從而來保證索引更新效率;最后,將主題索引分布存儲到系統(tǒng)上實現搜索的并行處理來提高搜索處理的效率。通過真實的Twitter數據集來驗證RDIBT的有效性,結果表明RD
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向大數據的分布式存儲關鍵技術的研究.pdf
- 分布式SAR環(huán)境下GMTI關鍵技術的研究.pdf
- 分布式數據存儲關鍵技術研究.pdf
- 海量空間環(huán)境數據分布式并行處理關鍵技術研究.pdf
- 云計算環(huán)境下分布式存儲關鍵技術研究.pdf
- 分布式仿真支撐環(huán)境關鍵技術的研究與應用.pdf
- 分布式計算環(huán)境下軟構件適應關鍵技術研究.pdf
- 基于Hadoop的分布式數據挖掘關鍵技術研究.pdf
- 云計算環(huán)境分布式存儲關鍵技術的研究.pdf
- 可信分布式計算環(huán)境的關鍵技術研究.pdf
- 大數據環(huán)境下基于Oracle的分布式查詢優(yōu)化研究與應用.pdf
- 基于網格計算的分布式數據管理關鍵技術研究.pdf
- 隨機網絡環(huán)境中分布式信任管理關鍵技術研究.pdf
- 分布式聲納數據流管理中間件關鍵技術的研究.pdf
- 分布式數據庫關鍵技術研究與應用.pdf
- 大數據環(huán)境下實體關系挖掘關鍵技術研究.pdf
- 分布式數據流查詢處理若干關鍵技術的研究.pdf
- 分布式目標網絡環(huán)境仿真關鍵技術研究.pdf
- 分布式mimo系統(tǒng)關鍵技術的研究
- 分布式事件流管理平臺關鍵技術研究.pdf
評論
0/150
提交評論