版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、,,BIG DATA,大數(shù)據(jù)技術與經(jīng)驗分享,2017.2.15,,,,,目錄,05,大數(shù)據(jù)計算與分析研判,04,大數(shù)據(jù)存儲與管理,06,大數(shù)據(jù)項目建設經(jīng)驗,02,大數(shù)據(jù)概述,01,現(xiàn)狀與問題,03,大數(shù)據(jù)采集與處理,PPT模板:www.1ppt.com/moban/ PPT素材:www.1ppt.com/sucai/PPT背景:www.1ppt.com/beijing/
2、 PPT圖表:www.1ppt.com/tubiao/ PPT下載:www.1ppt.com/xiazai/ PPT教程: www.1ppt.com/powerpoint/ 資料下載:www.1ppt.com/ziliao/ 范文下載:www.1ppt.com/fanwen/ 試卷下載:www.1ppt.co
3、m/shiti/ 教案下載:www.1ppt.com/jiaoan/ PPT論壇:www.1ppt.cn PPT課件:www.1ppt.com/kejian/ 語文課件:www.1ppt.com/kejian/yuwen/ 數(shù)學課件:www.1ppt.com/kejian/shuxue/
4、英語課件:www.1ppt.com/kejian/yingyu/ 美術課件:www.1ppt.com/kejian/meishu/ 科學課件:www.1ppt.com/kejian/kexue/ 物理課件:www.1ppt.com/kejian/wuli/ 化學課件:www.1ppt.com/kejian/huaxue/ 生物課件:www.1ppt.com/kejian/shengwu/ 地理課件:www.1pp
5、t.com/kejian/dili/ 歷史課件:www.1ppt.com/kejian/lishi/,,,01,當前信息化現(xiàn)狀與問題,,BIG DATA,,1.1,用戶使用方面,,查詢模式固化,01,,查詢操作復雜,02,,查詢效率低,03,,結果不準確,04,,結果不全面,05,缺少一個簡便、高效、準確的在線檢索工具!,1.2,應用建設方面,交管,警綜,戶政,出入境,……,,,,,,數(shù)據(jù)源,基礎設施,部級系統(tǒng),省級系
6、統(tǒng),市級系統(tǒng),區(qū)級系統(tǒng),業(yè)務系統(tǒng),系統(tǒng)多了,資源分散,點對點交互,重復建設,共享困難,重復建設現(xiàn)象突出!信息如何有效共享?,1.3,數(shù)據(jù)的管理與應用方面,,結構化數(shù)據(jù),……,圖像,音頻,視頻,非結構化信息的飛速增長為存儲帶來巨大壓力,對非結構化信息的利用缺乏有效手段,,矛盾,巨大的復雜的數(shù)據(jù)資源怎么用起來?,,,02,大數(shù)據(jù)技術概述,,BIG DATA,,2.1,,,,,,,,,,,,大數(shù)據(jù)發(fā)展的萌芽期,大數(shù)據(jù)發(fā)展的突破期,大數(shù)據(jù)發(fā)展的
7、孕育期,,發(fā)展歷程,大數(shù)據(jù)不是最近才有的, 數(shù)據(jù)一直存在,只是分析數(shù)據(jù)的技術近幾年有了革命性的突破!所以,大數(shù)據(jù)也可以稱為一種技術“大數(shù)據(jù)技術”,,90年代,,2003年-2006年,2006年-2009年,,2010年-至今,大數(shù)據(jù)發(fā)展的爆發(fā)期,2.2,概述,大數(shù)據(jù)指那些數(shù)據(jù)量特別大、數(shù)據(jù)類別特別復雜的數(shù)據(jù)集,并且這些數(shù)據(jù)沒有辦法在可容忍的時間下使用常規(guī)軟件方法完成存儲、管理和處理任務。,1、大量,2、多樣,3、快速,4、
8、價值,大數(shù)據(jù),存儲量大TB->PB計算量大,數(shù)據(jù)增長快處理速度要求快,數(shù)據(jù)來源多數(shù)據(jù)類型多,商業(yè)價值如:行為分析、信息挖掘 廣告定投、信息預測,結構化數(shù)據(jù)、非結構化文檔、視頻、照片等,大數(shù)據(jù)不僅僅是“大”,,,2.3,大數(shù)據(jù)的發(fā)展方向,01,02,03,04,這方向最常見的問題是數(shù)據(jù)的多源和多樣性,導致數(shù)據(jù)的質(zhì)量存在差異,嚴重影響到數(shù)據(jù)的可用性。針對這些問題,目前很多公司已經(jīng)推出了多種數(shù)據(jù)清洗和質(zhì)量控制
9、工具(如IBM的Data Stage),大數(shù)據(jù)采集與預處理方向,在數(shù)據(jù)量迅速膨脹的同時,還要進行深度的數(shù)據(jù)深度分析和挖掘,并且對自動化分析要求越來越高,越來越多的大數(shù)據(jù)數(shù)據(jù)分析工具和產(chǎn)品應運而生,如用于大數(shù)據(jù)挖掘的R Hadoop版、基于MapReduce開發(fā)的數(shù)據(jù)挖掘算法等等,大數(shù)據(jù)分析與挖掘方向,這方向最常見的挑戰(zhàn)是存儲規(guī)模大,存儲管理復雜,需要兼顧結構化、非結構化和半結構化的數(shù)據(jù)。分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫相關
10、技術的發(fā)展正在有效的解決這些方面的問題。,大數(shù)據(jù)存儲與管理方向,由于大數(shù)據(jù)處理多樣性的需求,目前出現(xiàn)了多種典型的計算模式,包括大數(shù)據(jù)查詢計算(如Hive)、批處理計算(如Hadoop MapReduce)、流式計算(如Storm)、和內(nèi)存計算(如Hana),而這些計算模式的組合使用將成為滿足多樣性大數(shù)據(jù)處理和應用需求的有效手段。,大數(shù)據(jù)計算方向,,,03,大數(shù)據(jù)采集與處理,,Big Data,,3.1,大數(shù)據(jù)采集的方式,大數(shù)據(jù)采集就是使
11、用多種技術或手段 “組合出擊”,將數(shù)據(jù)收集起來并存儲在大數(shù)據(jù)存儲系統(tǒng)中。根據(jù)數(shù)據(jù)的類型常見的采集方式包括一下四種:,,01,數(shù)據(jù)庫采集,,通過ETL工具將分布的、異構數(shù)據(jù)源中的結構化數(shù)據(jù)經(jīng)過清洗、轉(zhuǎn)化、整合操作后抽取到大數(shù)據(jù)存儲系統(tǒng),02,文本數(shù)據(jù)采集,,通過各類接口從電子文件中獲取數(shù)據(jù)的過程。可以將txt\xml\word\excel\pdf等文件內(nèi)的數(shù)據(jù)提取出來,并以結構化的方式存儲大數(shù)據(jù)存儲系統(tǒng),03,實時流式數(shù)據(jù)采集,,實時采集
12、物聯(lián)網(wǎng)內(nèi)RFID標簽、GPS定位設備、北斗定位設備、溫度傳感器等各類傳感器的實時狀態(tài)信息、位置信息,并以結構化的方式存儲在大數(shù)據(jù)存儲系統(tǒng),04,多媒體數(shù)據(jù)采集,通過視頻分析技術、圖形分析技術將視頻、圖片文件內(nèi)的要素信息提取出來,并以結構化數(shù)據(jù)存儲到大數(shù)據(jù)存儲系統(tǒng),3.2,大數(shù)據(jù)采集工具(ETL采集工具),ETL即數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)、裝載(Load)的過程。ETL負責將分散的、異構數(shù)據(jù)源中的數(shù)據(jù)抽取到臨
13、時中間層后,進行清洗、轉(zhuǎn)換、集成,最后加載到數(shù)據(jù)倉庫中。,Kettle,,開源工具純java編寫,綠色無需安裝支持Window、Linux、Unix運行環(huán)境依賴JDK可視化圖形界面,Informatica PowerCenter,,軟件一次性購買,但技術支持按項目收費支持Window、Linux、Unix客戶端與服務端分離可視化圖形界面廣泛支持各類結構化、非結構化的數(shù)據(jù)源,3.3,大數(shù)據(jù)采集工具(文件數(shù)據(jù)采集),,零散文
14、件(非結構化),快遞、飲食店等員工名單,截獲黑客犯罪人員電腦資料,小區(qū)住戶、租戶登記信息,舊犯罪記錄等文字卷宗,文件篩選,,文件分類,Excel文件,Word文件,文本文件,PDF文件,內(nèi)容抓取,人員和單位數(shù)據(jù)(結構化),審核入庫,,大數(shù)據(jù)存儲系統(tǒng),由于業(yè)務特點的不同,開源軟件或商業(yè)產(chǎn)品的解決方案針對性較弱,更傾向于由軟件開發(fā)商定制開發(fā)采集器,通過插件的方式擴展支持的文件類型。,3.4,大數(shù)據(jù)采集工具(實時流式數(shù)據(jù)采集),基于多源的
15、實時流式數(shù)據(jù)(如:GPS定位信息、北斗定位信息、移動定位終端實時位置信息、傳感器),提供數(shù)據(jù)接入、存儲、分發(fā)、自動識別、報警、監(jiān)控等實時處理功能。并支持通過插件的方式擴展接入類型。,,,車載終端,手持終端,固定設備,定位方式,終端支撐,,,,各個業(yè)務系統(tǒng),北斗,GPS,WIFI,RFID,基站,網(wǎng)絡,智能終端,,,,04,大數(shù)據(jù)存儲與管理,,Big Data,,4.1,大數(shù)據(jù)存儲方案,大數(shù)據(jù)存儲方案應該是根據(jù)數(shù)據(jù)的特點及業(yè)務需求進行“專
16、項治理”,產(chǎn)品和技術選型應該不僅僅局限于1種產(chǎn)品或技術。一般大數(shù)據(jù)存儲是由多種數(shù)據(jù)存儲方案或技術組合使用。,1,2,3,4,5,存儲方案,高增長、海量關系型數(shù)據(jù)存儲方案(Hbase),海量大個文件存儲方案(Hadoop HDFS),海量小文件存儲方案( FastDFS),高速緩存方案(Redis),傳統(tǒng)關系型數(shù)據(jù)存儲方案(Oracle集群、MySQL集群),4.2,傳統(tǒng)關系型數(shù)據(jù)存儲方案,應用場景:用于存儲結構化的人員、物品、組織
17、、數(shù)據(jù)字典等數(shù)據(jù)或業(yè)務關聯(lián)緊密的事物性數(shù)據(jù)技術選型:Oracle RAC 或 MySQL集群特 點:MPP架構、數(shù)據(jù)結構固定、數(shù)據(jù)量相對較小、安全性及穩(wěn)定性較高,MySQL集群,4.3,高增長、海量關系型數(shù)據(jù)存儲方案,應用場景:用于存儲數(shù)據(jù)量大且數(shù)據(jù)增長量較快的數(shù)據(jù)(如:卡口過車信息等)技術選型:HBase集群特 點:運行在Hadoop之上適合超大數(shù)據(jù)量的寫入,數(shù)據(jù)按列存儲、
18、只訪問查詢涉及的列-大量降低系統(tǒng)IO,4.4,海量大個文件存儲方案,應用場景:適合存儲、訪問、下載大個文件(通常是指百MB、GB、甚至GB大小的文件),如視頻網(wǎng)站類應用。技術選型:HDFS 分布式文件系統(tǒng)特 點:運行于廉價的商用機器集群上、多副本、采用了切分存儲的方式,4.5,海量小文件存儲方案,應用場景:對海量小文件進行管理,包括:文件存儲、文件同步、文件上傳、文件下載。如:百度文庫、相冊網(wǎng)站等應用場景技術選型
19、:FastDFS 分布式文件系統(tǒng)特 點:不對文件進行切分存儲、適合小文件存儲、支持線性擴容,,,05,大數(shù)據(jù)計算與分析研判,,Big Data,,5.1,大數(shù)據(jù)計算,大數(shù)據(jù)計算的核心思想是:分而治之,把大量的數(shù)據(jù)劃分開來,分配給各個子任務來完成。再將結果合并到一起輸出。,5.1,大數(shù)據(jù)計算-海量數(shù)據(jù)檢索,智能檢索,檢索結果以“檔案”形式展示,5.2,大數(shù)據(jù)離線計算,文本分析和數(shù)據(jù)分類、聚類對人力情報信息通過文本分析工具
20、進行處理,實現(xiàn)關鍵詞提取,包括地名、敏感詞語(如6.4事件、老兵、上訪、嗑粉等)、人名、各類號碼等,生成人力情報關鍵字庫(也稱“標簽庫”)。同時基于關鍵詞庫,關聯(lián)分析技術、聚類分析技術,實現(xiàn)熱點情報、相似情報等宏觀分析。文本分析工具文本分析是文本挖掘、信息檢索的一項基本技術,是指對文本中表示其特征項的“關鍵詞”自動識別與提取,可以實現(xiàn)word文檔內(nèi)情報信息的解析和標簽屬性創(chuàng)建。標簽庫建設熱點情報分析相似情報分析,5.3,大數(shù)據(jù)
21、分析研判-人員活動分析,人員活動分析:根據(jù)關注人員動態(tài)管控的需求,基于系統(tǒng)內(nèi)整合的外部信息(如:公安網(wǎng)實名制登記信息、出行記錄信息)和內(nèi)部信息(如:情報線索信息、重點人等信息),通過定制化分析模型工具,定義相關的分析模型,通過分析模型的計算和運行,支持研判的開展和應用,相關的分析模型包括但不限于如下:重點人流入預警重點人流出預警異常出行記錄分析人員軌跡分析人員關系分析(社會關系、同行、同住、同鄉(xiāng)),5.4,大數(shù)據(jù)分析研判模型
22、-案例1,旅業(yè)數(shù)據(jù)人員入住登記信息,,“跳房”記錄分析,,較短時間段內(nèi),,有多條開房記錄,年輕女性,旅館位置集中,深夜凌晨入住,入住時間短,,,主要條件,輔助條件,,,涉黃可疑人員名單,定時生成推送,500萬記錄,案件庫有關涉黃人員,,準確率高達87.8%,涉“黃”人員分析,5.4,大數(shù)據(jù)分析研判模型-案例2,密切度分析,張三,李四,籍貫相同,------,乘坐K1234列車從南寧至廣州,2014-08-16,登記入住同一出租屋,
23、2015-02-04,出境前往澳門,2015-05-18,密切度4,,,06,大數(shù)據(jù)項目建設經(jīng)驗,,Big Data,,6.1,思考一,一是大數(shù)據(jù)思維的演進道路,,,從精確性到相似(相關)性起步階段我們追求精確制導;單一查詢不是大數(shù)據(jù)的主要應用;用大數(shù)據(jù)去揭示規(guī)律,反映客觀事實;從大數(shù)據(jù)中發(fā)現(xiàn)隱含的知識。,6.2,思考二,二是統(tǒng)籌耦合三種計算模式,,,因材施用、用其所長、相輔相成關系型:結構化程度高,數(shù)據(jù)量不大等;分布式:結
24、構化程度一般,巨量檢索等;大內(nèi)存:數(shù)據(jù)量適中,多變量求解等;不能忽視異構數(shù)據(jù)交換工作,6.3,思考三,三是業(yè)務需求為導向,,,以業(yè)務需求為導向去設計與建設,回到用戶需求,分析日常工作真正所需。技術是為業(yè)務服務的,技術選型和架構決策依賴業(yè)務規(guī)劃, 離開業(yè)務發(fā)展 的支撐和驅(qū)動, 技術走不遠,甚至還會迷路!前沿技術總是出現(xiàn)在前沿業(yè)務領域。,6.4,思考四,四是將對非結構化的內(nèi)容的管理納入到單位的數(shù)據(jù)管理能力,,,非結構化數(shù)據(jù)一直是單位
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 暨大數(shù)量經(jīng)濟考研經(jīng)驗分享
- 2019復旦大學大數(shù)據(jù)學院應用統(tǒng)計考研初試經(jīng)驗分享
- 2019年北大數(shù)院金融碩士經(jīng)驗分享
- 大數(shù)據(jù)技術與應用
- 數(shù)據(jù)挖掘與大數(shù)據(jù)技術應用
- 大數(shù)據(jù)技術
- 大數(shù)據(jù)技術與應用教案
- 大數(shù)據(jù)技術與應用教案
- 大數(shù)據(jù)技術與應用專業(yè)
- 大數(shù)據(jù)技術
- 2020清華大學自動化系大數(shù)據(jù)工程專業(yè)考研初試經(jīng)驗分享
- 大數(shù)據(jù)技術原理與應用
- 云計算大數(shù)據(jù)案例分享中科院
- 大數(shù)據(jù)技術與應用專業(yè)建設
- 大數(shù)據(jù)架構與關鍵技術
- 大數(shù)據(jù)架構與關鍵技術
- 大數(shù)據(jù)技術與應用專業(yè)建設
- 大數(shù)據(jù)技術與應用專業(yè)建設
- 大數(shù)據(jù)時代下數(shù)據(jù)挖掘技術與應用
- 大數(shù)據(jù)挖掘技術
評論
0/150
提交評論