hbase分析報告 - 1_第1頁
已閱讀1頁,還剩24頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、Hbase分析報告分析報告本文基于環(huán)境hadoop0.16.4和hbase0.1.3編寫Hbase是一個分布式開源數(shù)據(jù)庫,基于Hadoop分布式文件系統(tǒng),模仿并提供了基于Google文件系統(tǒng)的Bigtable數(shù)據(jù)庫的所有功能。Hbaes的目標是處理非常龐大的表,可以用普通的計算機處理超過10億行數(shù)據(jù),并且有數(shù)百萬列元素組成的數(shù)據(jù)表。Hbase可以直接使用本地文件系統(tǒng)或者Hadoop作為數(shù)據(jù)存儲方式,不過為了提高數(shù)據(jù)可靠性和系統(tǒng)的健壯性,

2、發(fā)揮Hbase處理大數(shù)據(jù)量等功能,需要使用Hadoop作為文件系統(tǒng),那么我們就先要了解Hadoop文件系統(tǒng)的基本特性和原理,才能更好地理解Hbase的工作方式。Hadoop文件系統(tǒng)文件系統(tǒng)Hadoop文件系統(tǒng)是一個能夠兼容普通硬件環(huán)境的分布式文件系統(tǒng),和現(xiàn)有的分布式文件系統(tǒng)不同的地方是Hadoop更注重容錯性和兼容廉價的硬件設(shè)備,這樣做是為了用很小的預(yù)算甚至直接利用現(xiàn)有機器就實現(xiàn)大流量和大數(shù)據(jù)量的讀取。Hadoop使用了POSIX的設(shè)計

3、來實現(xiàn)對文件系統(tǒng)文件流的讀取。HDFS(HadoopFileSystem)原來是ApacheNutch搜索引擎(從Lucene發(fā)展而來)開發(fā)的一個部分,后來獨立出來作為一個Apache子項目。Hadoop的假設(shè)與目標的假設(shè)與目標1、硬件出錯,Hadoop假設(shè)硬件出錯是一種正常的情況,而不是異常,為的就是在硬件出錯的情況下盡量保證數(shù)據(jù)完整性,HDFS設(shè)計的目標是在成百上千臺服務(wù)器中存儲數(shù)據(jù),并且可以快速檢測出硬件錯誤和快速進行數(shù)據(jù)的自動恢

4、復(fù)。2、流數(shù)據(jù)讀寫,不同于普通的文件系統(tǒng),Hadoop是為了程序批量處理數(shù)據(jù)而設(shè)計的,而不是與用戶的交互或者隨機讀寫,所以POSIX對程序增加了許多硬性限制,程序必須使用流讀取來提高數(shù)據(jù)吞吐率。3、大數(shù)據(jù)集,HDFS上面一個典型的文件一般是用GB或者TB計算的,而且一個數(shù)百臺機器組成的集群里面可以支持過千萬這樣的文件。4、簡單的文件模型,HDFS上面的文件模型十分簡單,就是一次寫入多次讀取的模型,文件一旦創(chuàng)建,寫入并關(guān)閉了,之后就再也不

5、會被改變了,只能被讀取,這種模型剛好符合搜索引擎的需求,以后可能會實現(xiàn)追加寫入數(shù)據(jù)這樣的功能。5、強大的跨平臺兼容性,由于是基于java的實現(xiàn),無論是硬件平臺或者是軟件平臺要求Hadoop文件系統(tǒng)命名空間文件系統(tǒng)命名空間Hadoop文件系統(tǒng)使用的是傳統(tǒng)的分級文件體系,客戶端程序可以創(chuàng)建目錄并且在目錄里面保存文件,類似與現(xiàn)在一般的文件系統(tǒng)。Hadoop允許用戶創(chuàng)建、刪除文件,在目錄間轉(zhuǎn)移文件,重命名文件等,但是還沒有實現(xiàn)磁盤配額和文件訪問

6、權(quán)限等功能,也不支持文件的硬連接和軟連接(快捷方式),這些功能在短期內(nèi)不會實現(xiàn)。目錄節(jié)點負責(zé)存儲和管理整個文件系統(tǒng)的命名空間,應(yīng)用程序可以指定某一個文件需要在Hadoop文件系統(tǒng)中冗余多少份,這個在Hadoop中稱為冗余因素,保存在目錄節(jié)點里面。Hadoop存儲原理存儲原理冗余數(shù)據(jù)保存冗余數(shù)據(jù)保存Hadoop文件系統(tǒng)是為了大文件的可靠保存而設(shè)計的,一個文件被劃分成一連串的數(shù)據(jù)塊,除了文件的最后一塊以外其它所有的數(shù)據(jù)塊都是固定大小的,為了

7、數(shù)據(jù)容錯性,每一個數(shù)據(jù)塊都會被冗余存儲起來,而每個文件的塊大小和冗余因素都是可以設(shè)置的,程序可以設(shè)置文件的數(shù)據(jù)塊要被復(fù)制多少份,而且這個冗余因素除了可以在創(chuàng)建的時候指定,還可以在之后改變。在Hadoop文件系統(tǒng)里面文件只會被寫入一次,并且任何時間只會有一個程序在寫入這個文件。目錄節(jié)點是根據(jù)數(shù)據(jù)塊的冗余狀況來作出處理決策的,數(shù)據(jù)節(jié)點會定期發(fā)送一個存在信號(Heartbeat)和數(shù)據(jù)塊列表給目錄節(jié)點,存在信號使目錄節(jié)點認為該數(shù)據(jù)節(jié)點還是有效

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論