大數(shù)據(jù)時(shí)代的數(shù)據(jù)概念分析及其他_第1頁
已閱讀1頁,還剩6頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)時(shí)代的數(shù)據(jù)概念分析及其他一、概念:“大數(shù)據(jù)“是一個(gè)體量特別大,數(shù)據(jù)類別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理。 “大數(shù)據(jù)“首先是指數(shù)據(jù)體量(volumes)?大,指代大型數(shù)據(jù)集,一般在 10TB?規(guī)模左右,但在實(shí)際應(yīng)用中, 很多企業(yè)用戶把多個(gè)數(shù)據(jù)集放在一起, 已經(jīng)形成了 PB 級(jí)的數(shù)據(jù)量; 其次是指數(shù)據(jù)類別(variety)大,數(shù)據(jù)來自多種數(shù)據(jù)源,數(shù)據(jù)種類和格式日漸豐富,已沖破了以前 所限

2、定的結(jié)構(gòu)化數(shù)據(jù)范疇,囊括了半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。接著是數(shù)據(jù)處理速度(Velocity)快,在數(shù)據(jù)量非常龐大的情況下,也能夠做到數(shù)據(jù)的實(shí)時(shí)處理。最后一個(gè)特點(diǎn)是指數(shù)據(jù)真實(shí)性(Veracity)高,隨著社交數(shù)據(jù)、企業(yè)內(nèi)容、交易與應(yīng)用數(shù)據(jù)等新數(shù)據(jù)源的興趣,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)愈發(fā)需要有效的信息 之力以確保其真實(shí)性及安全性。百度概念:大數(shù)據(jù)(bigdata), 或稱巨量資料, 指的是所涉及的資料量規(guī)模巨大到無法透過目前主流軟件工具,在合

3、理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。 大數(shù)據(jù)的 4V 特點(diǎn): Volume、 Velocity、 Variety、 Veracity。研究機(jī)構(gòu) Gartner 概念:“大數(shù)據(jù)“是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。從數(shù)據(jù)的類別上看,“大數(shù)據(jù)“指的是無法使用傳統(tǒng)流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大 小、迫使用戶采用非傳

4、統(tǒng)處理方法的數(shù)據(jù)集。 亞馬遜網(wǎng)絡(luò)服務(wù)(AWS) 、大數(shù)據(jù)科學(xué)家 JohnRauser 提到一個(gè)簡(jiǎn)單的定義: 大數(shù)據(jù)就是任何超過了一臺(tái)計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量。 研發(fā)小組對(duì)大數(shù)據(jù)的定義:“大數(shù)據(jù)是最大的宣傳技術(shù)、是最時(shí)髦的技術(shù),當(dāng)這種現(xiàn)象出現(xiàn)時(shí),定義就變得很混亂?!?Kelly 說:“大數(shù)據(jù)是可能 不包含所有的信息,但我覺得大部分是正確的。對(duì)大數(shù)據(jù)的一部分認(rèn)知在于,它是如此之大,分析它需要多個(gè)工作負(fù)載,這是AWS 的定義。當(dāng)你的技術(shù)達(dá)到

5、極限時(shí),也就是數(shù)據(jù)的極限“。 大數(shù)據(jù)不是關(guān)于如何定義,最重要的是如何使用。最大 的挑戰(zhàn)在于哪些技術(shù)能更好的使用數(shù)據(jù)以及大數(shù)據(jù)的應(yīng)用情況如何。這與傳統(tǒng)的 數(shù)據(jù)庫相比,開源的大數(shù)據(jù)分析工具的如 Hadoop 的崛起,這些非結(jié)構(gòu)化的數(shù)據(jù)服務(wù)的價(jià)值在哪里。二、大數(shù)據(jù)分析從所周知,大數(shù)據(jù)已經(jīng)不簡(jiǎn)簡(jiǎn)單單是數(shù)據(jù)大的事實(shí)了,而最重要的現(xiàn)實(shí)是對(duì)大數(shù)據(jù)進(jìn)行分析,只有通過分析才能獲取很多智能的、深入的、有價(jià)值的信息。那么越來越多的應(yīng)用涉及到大數(shù)據(jù),而這些大數(shù)

6、據(jù)的屬性,包括數(shù)量,速度,多 樣性等等都是呈現(xiàn)了大數(shù)據(jù)不斷增長(zhǎng)的復(fù)雜性,所以大數(shù)據(jù)的分析方法在大數(shù)據(jù) 領(lǐng)域就顯得尤為重要,可以說是決定最終信息是否有價(jià)值的決定性因素?;谌绱说恼J(rèn)識(shí),大數(shù)據(jù)分析普遍存在的方法理論有哪些呢?大數(shù)據(jù)分析的五個(gè)基本方面:1、 可視化分析 Analytic Visualizations 大數(shù)據(jù)分析的使用者有大數(shù)據(jù)分析專家,同時(shí)還有普通用戶,但是他們二者對(duì)應(yīng)分析、多元對(duì)應(yīng)分析(最優(yōu)尺度分析) 、bootstrap

7、技術(shù)等等。數(shù)據(jù)挖掘: 數(shù)據(jù)挖掘:分類 (Classification) 、 估計(jì) (Estimation) 、 預(yù)測(cè) (Prediction) 、相關(guān)性分組或關(guān)聯(lián)規(guī)則 (Affinity grouping or association rules) 、 聚類 (Clustering) 、描述和可視化、Description and Visualization ) 、復(fù)雜數(shù)據(jù)類型挖掘(Text, Web ,圖形圖像,視頻,音頻等)模型預(yù)測(cè)

8、: 模型預(yù)測(cè):預(yù)測(cè)模型、機(jī)器學(xué)習(xí)、建模仿真。結(jié)果呈現(xiàn): 結(jié)果呈現(xiàn):云計(jì)算、標(biāo)簽云、關(guān)系圖等。四、大數(shù)據(jù)特點(diǎn) 四、大數(shù)據(jù)特點(diǎn)要理解大數(shù)據(jù)這一概念,首先要從“大“入手,“大“是指數(shù)據(jù)規(guī)模,大數(shù)據(jù)一般指在 10TB(1TB=1024GB)規(guī)模以上的數(shù)據(jù)量。 大數(shù)據(jù)同過去的海量數(shù)據(jù)有所區(qū)別,其基本特征可以用 4 個(gè) V 來總結(jié)(Vol-ume、Variety、Value 和 Veloc-ity),即體量大、多樣性、價(jià)值密度低、速度快。第一, 第

9、一,數(shù)據(jù)體量巨大。從 TB 級(jí)別,躍升到 PB 級(jí)別。 第二, 第二, 數(shù)據(jù)類型繁多, 如前文提到的網(wǎng)絡(luò)日志、 視頻、 圖片、 地理位置信息,等等。第三, 第三,價(jià)值密度低。以視頻為例,連續(xù)不間斷監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅有一兩秒。第四, 第四,處理速度快。1 秒定律。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。物聯(lián)網(wǎng)、云計(jì)算、移動(dòng)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)、手機(jī)、平板電腦、 PC 以及遍布地球各個(gè)角落的各種各樣的傳感器,無一不是數(shù)據(jù)來源

10、或者承載的方式。大數(shù)據(jù)技術(shù)是指從各種各樣類型的巨量數(shù)據(jù)中, 快速獲得有價(jià)值信息的技術(shù)。解決大數(shù)據(jù)問題的核心是大數(shù)據(jù)技術(shù)。目前所說的 “大數(shù)據(jù)“不僅指數(shù)據(jù)本身的規(guī)模,也包括采集數(shù)據(jù)的工具、平臺(tái)和數(shù)據(jù)分析系統(tǒng)。大數(shù)據(jù)研發(fā)目的是發(fā)展大數(shù)據(jù)技術(shù)并將其應(yīng)用到相關(guān)領(lǐng)域,通過解決巨量數(shù)據(jù)處理問題促進(jìn)其突破性發(fā)展。 因此,大數(shù)據(jù)時(shí)代帶來的挑戰(zhàn)不僅體現(xiàn)在如何處理巨量數(shù)據(jù)從中獲取有價(jià)值的信息,也體現(xiàn)在如何加強(qiáng)大數(shù)據(jù)技術(shù)研發(fā),搶占時(shí)代發(fā)展的前沿。五、當(dāng)下我國(guó)

11、大數(shù)據(jù)研發(fā)建設(shè)應(yīng)在以下四個(gè)方面著力 五、當(dāng)下我國(guó)大數(shù)據(jù)研發(fā)建設(shè)應(yīng)在以下四個(gè)方面著力一是建立一套運(yùn)行機(jī)制。大數(shù)據(jù)建設(shè)是一項(xiàng)有序的、動(dòng)態(tài)的、可持續(xù)發(fā)展的系統(tǒng)工程,必須建立良好的運(yùn)行機(jī)制,以促進(jìn)建設(shè)過程中各個(gè)環(huán)節(jié)的正規(guī)有序,實(shí)現(xiàn)統(tǒng)合,搞好頂層設(shè)計(jì)。二是規(guī)范一套建設(shè)標(biāo)準(zhǔn)。沒有標(biāo)準(zhǔn)就沒有系統(tǒng)。應(yīng)建立面向不同主題、覆蓋各個(gè)領(lǐng)域、不斷動(dòng)態(tài)更新的大數(shù)據(jù)建設(shè)標(biāo)準(zhǔn),為實(shí)現(xiàn)各級(jí)各類信息系統(tǒng)的網(wǎng)絡(luò)互連、信息互通、資源共享奠定基礎(chǔ)。三是搭建一個(gè)共享平臺(tái)。數(shù)據(jù)只有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論