版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、,,,大數(shù)據(jù)時(shí)代 生活、工作與思維的大變革L(fēng)iving, working and thinking big changes,,,,,,大數(shù)據(jù)開啟了一次重大的時(shí)代轉(zhuǎn)型。就想望遠(yuǎn)鏡讓我們能夠感受宇宙,顯微鏡讓我們能夠觀測(cè)微生物一樣,大數(shù)據(jù)正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢(shì)待發(fā)……,一場(chǎng)生活、工作與思維的大變革,一場(chǎng)生活、工作與思維的大變革,大數(shù)據(jù),變革公共衛(wèi)生
2、大數(shù)據(jù),變革商業(yè)大數(shù)據(jù),變革思維大數(shù)據(jù),開啟重大的時(shí)代轉(zhuǎn)型預(yù)測(cè),大數(shù)據(jù)的核心大數(shù)據(jù),大挑戰(zhàn),什么是大數(shù)據(jù),2009年,甲型H1N1流感在全球爆發(fā)傳播,為了發(fā)現(xiàn)和控制疫情,各國(guó)政府和衛(wèi)生相關(guān)部門付出了巨大努力,但得到的數(shù)據(jù)仍然滯后一兩周,而Google對(duì)人們的搜索的歷史記錄進(jìn)行處理,建立合理的數(shù)學(xué)模型后,得到的預(yù)測(cè)結(jié)果與官方的數(shù)據(jù)相關(guān)性高達(dá)97%,能夠立刻判斷出流感是從哪里傳播出來的,沒有一兩周的滯后。Google處理了5000
3、萬條歷史記錄、4.5億個(gè)不同的數(shù)學(xué)模型。,什么是大數(shù)據(jù),Farecast是一個(gè)對(duì)機(jī)票價(jià)格進(jìn)行預(yù)測(cè)的公司,幫助消費(fèi)者抓住最佳購(gòu)買機(jī)票的時(shí)機(jī),使乘客節(jié)省很多錢。最初預(yù)測(cè)系統(tǒng)建立在41天之內(nèi)的12000個(gè)價(jià)格樣本基礎(chǔ)上,數(shù)據(jù)是從旅游網(wǎng)站上抓取的,如今已經(jīng)擁有超過2000億條飛行記錄。系統(tǒng)只推測(cè)機(jī)票的價(jià)格何時(shí)最便宜,不關(guān)心是什么原因?qū)е碌膬r(jià)格下降。,Farecast→Bing,大數(shù)據(jù)的特性,,,大數(shù)據(jù)的特性,,更關(guān)注相關(guān)性,,,,,,,
4、,主要用于預(yù)測(cè),,,數(shù)據(jù)量巨大,,,,,實(shí)時(shí)性要求高,,,,01,大數(shù)據(jù)時(shí)代的思維變革,02,大數(shù)據(jù)時(shí)代的商業(yè)變革,03,大數(shù)據(jù)時(shí)代的管理變革,一、大數(shù)據(jù)時(shí)代的思維變革,一、大數(shù)據(jù)時(shí)代的思維變革—更多,“更多”——不是隨機(jī)樣本,而是全體數(shù)據(jù),當(dāng)數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生翻天覆地的變化時(shí),在大數(shù)據(jù)時(shí)代進(jìn)行抽樣分析就像在汽車時(shí)代騎馬一樣。一切都改變了,我們需要的是所有的數(shù)據(jù),“樣本=總體”。,讓數(shù)據(jù)“發(fā)聲”小數(shù)據(jù)時(shí)代的隨機(jī)采樣,最少的數(shù)據(jù)
5、獲得最多的信息全數(shù)據(jù)模式,樣本=總體,一、大數(shù)據(jù)時(shí)代的思維變革—更雜,“更雜”——不是精確性,而是混雜性,執(zhí)迷于精確性是信息缺乏時(shí)代和模擬時(shí)代的產(chǎn)物。只有5%的數(shù)據(jù)是有框架且能適用于傳統(tǒng)數(shù)據(jù)庫(kù)的。如果不能接受混亂,剩下95%的非框架數(shù)據(jù)都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶。,允許不精確大數(shù)據(jù)的簡(jiǎn)單算法比小數(shù)據(jù)的復(fù)雜算法更有效紛繁的數(shù)據(jù)越多越好混雜性,不是竭力避免,而是標(biāo)準(zhǔn)途徑新的數(shù)據(jù)庫(kù)設(shè)計(jì)的誕生
6、,一、大數(shù)據(jù)時(shí)代的思維變革—更好,“更好”——不是因果關(guān)系,而是相關(guān)關(guān)系,知道“是什么”就夠了,沒必要知道“為什么”。在大數(shù)據(jù)時(shí)代,我們不必非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己“發(fā)聲”。,關(guān)聯(lián)物,預(yù)測(cè)的關(guān)鍵“是什么”,而不是“為什么”改變,從操作方式開始大數(shù)據(jù),改變?nèi)祟愄剿魇澜绲姆椒?二、大數(shù)據(jù)時(shí)代的商業(yè)變革,二、大數(shù)據(jù)時(shí)代的商業(yè)變革—數(shù)據(jù)化,“數(shù)據(jù)化”——一切皆可“量化”,大數(shù)據(jù)發(fā)展的核心動(dòng)力來源于人類測(cè)量、記錄和分析世界的
7、渴望。信息技術(shù)變革隨處可見,但是如今信息技術(shù)變革的重點(diǎn)在“T”(技術(shù))上,而不是在“I”(信息)上?,F(xiàn)在,我們是時(shí)候把聚光燈打向“I”,開始關(guān)注信息本身了。,數(shù)據(jù),從最不可能的地方提取出來數(shù)據(jù)化,不是數(shù)字化量化一切,數(shù)據(jù)化的核心當(dāng)文字變成數(shù)據(jù)當(dāng)方位變成數(shù)據(jù)當(dāng)溝通成為數(shù)據(jù)一切事物的數(shù)據(jù)化,二、大數(shù)據(jù)時(shí)代的商業(yè)變革—價(jià)值,“價(jià)值”——“取之不盡,用之不竭”的數(shù)據(jù)創(chuàng)新,數(shù)據(jù)就像一個(gè)神奇的鉆石礦,當(dāng)它的首要價(jià)值被發(fā)掘后仍能不斷給予。
8、它的真實(shí)價(jià)值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而絕大部分都隱藏在表面之下。,數(shù)據(jù)創(chuàng)新1:數(shù)據(jù)的再利用數(shù)據(jù)創(chuàng)新2:重組數(shù)據(jù)數(shù)據(jù)創(chuàng)新3:可擴(kuò)展數(shù)據(jù)數(shù)據(jù)創(chuàng)新4:數(shù)據(jù)的折舊值數(shù)據(jù)創(chuàng)新5:數(shù)據(jù)廢氣數(shù)據(jù)創(chuàng)新6:開放數(shù)據(jù)給數(shù)據(jù)估值,二、大數(shù)據(jù)時(shí)代的商業(yè)變革—角色定位,“角色定位”——數(shù)據(jù)、技術(shù)與思維的三足鼎立,微軟以1.1億美元的價(jià)格購(gòu)買了大數(shù)據(jù)公司Farecast,而兩年后谷歌則以7億美元的價(jià)格購(gòu)買了給Farecast提
9、供數(shù)據(jù)的ITA Software公司。如今,我們正處在大數(shù)據(jù)時(shí)代的早期,思維和技術(shù)是最有價(jià)值的,但是最終大部分價(jià)值還是必須從數(shù)據(jù)本身來挖掘。,大數(shù)據(jù)價(jià)值的3大構(gòu)成大數(shù)據(jù)掌控公司大數(shù)據(jù)技術(shù)公司大數(shù)據(jù)思維公司和個(gè)人全新的數(shù)據(jù)中間商專家的消亡與數(shù)據(jù)科學(xué)家的崛起大數(shù)據(jù),決定企業(yè)的競(jìng)爭(zhēng)力,三、大數(shù)據(jù)時(shí)代的管理變革,二、大數(shù)據(jù)時(shí)代的管理變革—風(fēng)險(xiǎn),“風(fēng)險(xiǎn)”——讓數(shù)據(jù)主宰一切的隱憂,我們時(shí)刻都暴露在“第三只眼”之下:亞馬遜監(jiān)視著我們的購(gòu)物
10、習(xí)慣,谷歌監(jiān)視著我們的網(wǎng)頁(yè)瀏覽習(xí)慣,而微博似乎什么都知道,不僅竊聽到了我們心中的“TA”,還有我們的社交關(guān)系網(wǎng)。,無處不在的“第三只眼”我們的隱私被二次利用了預(yù)測(cè)與懲罰,不是因?yàn)椤八觥?,而是因?yàn)椤皩⒆觥睌?shù)據(jù)獨(dú)裁掙脫大數(shù)據(jù)的困境,二、大數(shù)據(jù)時(shí)代的管理變革—掌控,“掌控”——責(zé)任與自由并舉的信息管理,當(dāng)世界開始邁向大數(shù)據(jù)時(shí)代時(shí),社會(huì)也將經(jīng)歷類似的地殼運(yùn)動(dòng)。在改變?nèi)祟惢镜纳钆c思考方式的同時(shí),大數(shù)據(jù)早已在推動(dòng)人類信息管理準(zhǔn)則上重新
11、定位。然而,不同于印刷革命,我們沒有幾個(gè)世紀(jì)的時(shí)間去適應(yīng),我們也許只有幾年時(shí)間。,管理變革1:個(gè)人隱私保護(hù),從個(gè)人許可到讓數(shù)據(jù)使用者承擔(dān)責(zé)任管理變革2:個(gè)人動(dòng)因VS預(yù)測(cè)分析管理變革3:擊碎黑盒子,大數(shù)據(jù)程序員的崛起管理變革4:反數(shù)據(jù)壟斷大亨,結(jié) 語,正在發(fā)生的未來,大數(shù)據(jù)并不是一個(gè)充斥著算法和機(jī)器的冰冷世界,人類的作用依然無法被完全替代。大數(shù)據(jù)為我們提供的不是最終答案,只是參考答案,幫助是暫時(shí)的,而更好的方法和答案
12、還在不久的未來。,,,,大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘,,,,,,Contents,數(shù)據(jù)挖掘簡(jiǎn)介,產(chǎn)生背景隨著數(shù)據(jù)庫(kù)技術(shù)的飛速發(fā)展,快速增長(zhǎng)的海量數(shù)據(jù)收集、存放在大量數(shù)據(jù)儲(chǔ)存庫(kù)中理解他們已經(jīng)遠(yuǎn)遠(yuǎn)超出人的能力數(shù)據(jù)墳?zāi)埂y得再訪問的數(shù)據(jù)檔案數(shù)據(jù)豐富,但信息缺乏,如何利用大量數(shù)據(jù),數(shù)據(jù)挖掘定義,從大量的、不完全的、有噪聲的、隨機(jī)的數(shù)據(jù)中提取含在其中的、人們事先不知道的、有用的信息和知識(shí)的過程。功能的廣義觀點(diǎn):從存放在數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或其他
13、信息庫(kù)中的大量數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的過程數(shù)據(jù)挖掘是一個(gè)新興、交叉學(xué)科領(lǐng)域,演變歷程,,,,,,原始文件處理,紙張,界面、查詢,硬盤,聯(lián)機(jī)分析處理,各個(gè)數(shù)據(jù)庫(kù),各種媒體,數(shù)據(jù)挖掘受多學(xué)科的影響,數(shù)據(jù)挖掘步驟,,數(shù)據(jù)挖掘分類,,分類分析:找出描述和區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便能夠使模型預(yù)測(cè)未知的對(duì)象類常用方法:分類規(guī)則;決策樹;神經(jīng)網(wǎng)絡(luò);聚類分析:根據(jù)最大化類內(nèi)部的相似性、最小化類之間的相似性的原則進(jìn)行聚類或分組常用算法:K-MEAMS;
14、分層凝聚發(fā);估算最大值法關(guān)聯(lián)分析:發(fā)現(xiàn)數(shù)據(jù)庫(kù)中不同項(xiàng)之間的聯(lián)系常用方法:Apriori;MAQA;IUA;,,時(shí)間序列分析:描述行為隨時(shí)間變化的對(duì)象的規(guī)律或趨勢(shì),并對(duì)其建模匹配方法:ARMA模型離群點(diǎn)分析:檢測(cè)和分析離群點(diǎn)離群點(diǎn):與數(shù)據(jù)的一般行為或模型不一致的點(diǎn),成功案例,啤酒加尿布地點(diǎn):沃爾瑪在美國(guó)加州的某連鎖店起因:每天銷售信息和顧客基本情況的數(shù)據(jù)庫(kù)中發(fā)現(xiàn)購(gòu)買嬰兒尿布的顧客多是男性,而且往往也同時(shí)購(gòu)買啤酒經(jīng)過:重
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘》試題及答案
- 《大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘》試題及答案..
- 《大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘》試題解析
- 大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)與應(yīng)用
- 大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘試題及答案
- 大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘試題及答案要點(diǎn)
- 《大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘》試題及答案要點(diǎn)
- 大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘試題及答案要點(diǎn)
- 大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析和挖掘
- 大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析和挖掘
- 大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析和挖掘
- 大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析和挖掘
- 大數(shù)據(jù)數(shù)據(jù)挖掘
- 大數(shù)據(jù)數(shù)據(jù)挖掘
- 大數(shù)據(jù)數(shù)據(jù)挖掘
- 大數(shù)據(jù)挖掘外文翻譯—大數(shù)據(jù)挖掘研究
- 大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘課程教學(xué)探索
- 大數(shù)據(jù)時(shí)代下的新聞變革
- 大數(shù)據(jù)時(shí)代下的精準(zhǔn)營(yíng)銷
- 大數(shù)據(jù)與數(shù)據(jù)挖掘
評(píng)論
0/150
提交評(píng)論