版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、大數據分析的流程淺析之一:大數據采集過程分析數據采集,就是使用某種技術或手段,將數據收集起來并存儲在某種設備上,這種設備可以是磁盤或磁帶。區(qū)別于普通的數據分析,大數據分析的數據采集在數據收集和存儲技術上都是不同的。具體情況如下:1.大數據收集過程在收集階段,大數據分析在時空兩個方面都有顯著的不同。在時間維度上,為了獲取更多的數據,大數據收集的時間頻度大一些,有時也叫數據采集的深度。在空間維度上,為了獲取更準確的數據,數據采集點設置得會更
2、密一些。以收集一個面積為100平方米的葡萄園的平均溫度為例。小數據時代,由于成本的原因,葡萄園主只能在葡萄園的中央設置一個溫度計用來計算溫度,而且每一小時觀測一次,這樣一天就只有24個數據。而在大數據時代,在空間維度上,可以設置100個溫度計,即每個1平方米一個溫度計;在時間維度上,每隔1分鐘就觀測一次,mapredce分布式計算則就實現讓6000臺計算機一起協(xié)同工作起來,hadoop在設計mapredce時,最基本的思想就是讓分析師不
3、用操心程序設計問題,這些問題需要和最底層的程序打交道的,且只有優(yōu)秀的程序員才能解決的,而是讓大數據分析師專注于業(yè)務流程進行簡單的mapredce程序編寫,也就是說大數據分析師只需要知道簡單的mapreduce程序設計流程就可以了,不需要成為優(yōu)秀的JAVA、Python程序員。hadoop框架的這種簡單的設計思想,再加上它開源的特性,使其一開始就受到很多主流的互聯(lián)網公司所采用,接下來的事情就順理成章了,它成為全球最成功的解決大數據分析的分
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論