版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、云展大數(shù)據(jù)機,新加坡國立大學/浙江大學數(shù)據(jù)庫研究組,團隊簡介,新加坡國立大學2011年美國新聞(US News)的大學排名中為第28名,亞洲第三名2011-2012泰晤士報大學排名中為世界第40名,亞洲第三名2012 QS World University Rankings的計算機系排名,國立大學排第9名基于新加坡國立大學計算機系數(shù)據(jù)庫組的研究團隊教授博士導師:3人博士后:3人博士生:16人碩士生:10人研究助理:8人
2、,團隊帶頭人,黃銘鈞(Ooi Beng Chin)教授現(xiàn)任新加坡國立大學計算機學院院長ACM和IEEE雙料院士2009年SIGMOD貢獻獎2011年新加坡科學家總統(tǒng)獎2012年IEEE Computer Society Kanai獎國際知名刊物TKDE的主編曾多次擔任國際頂級會議SIGMOD, VLDB, ICDE的執(zhí)行委員會主席共發(fā)表國際論文200多篇,團隊帶頭人,陳剛教授浙江大學計算機學院副院長 近五年來共在研和
3、完成國家863計劃項目四項、國防預研項目四項,國家計委產業(yè)化前期項目一項 獲國家科技進步二等獎一項、國家科技進步三等獎一項、浙江省科技進步一等獎二項、教育部科技進步二等獎一項,年度浙江省科技進步三等獎一項 開發(fā)國產數(shù)據(jù)庫神舟Oscar系統(tǒng),云展大數(shù)據(jù)機概述,定位:國內大數(shù)據(jù)分析平臺,為應用開發(fā)提供支撐特色:軟硬件一體化設計對大數(shù)據(jù)分析應用開發(fā)全周期的支持大數(shù)據(jù)收集大數(shù)據(jù)編目(元數(shù)據(jù)管理)大數(shù)據(jù)并行處理引擎數(shù)據(jù)可視化、知
4、識查詢性能卓越云計算技術并行處理技術,國內大數(shù)據(jù)市場形勢分析,數(shù)據(jù)來源:CCW Research(計世資訊 )是ICT產業(yè)權威的市場研究和咨詢機構市場規(guī)模2011年開始起步,2012-2016,高速發(fā)展2012年為4.7億元,每年超過100%的增長速度,大數(shù)據(jù)分析市場行業(yè)分布,2012年大數(shù)據(jù)分析需求行業(yè)分布政府、互聯(lián)網、電信、金融的大數(shù)據(jù)市場規(guī)模較大,四個行業(yè)將占據(jù)一半市場份額。結論:各個行業(yè)都存在大數(shù)據(jù)應用的需求,潛
5、在市場空間非??捎^。,云展大數(shù)據(jù)機,,收集網站日志,交易數(shù)據(jù),音頻視頻數(shù)據(jù),即時信息……,可擴展數(shù)據(jù)采集框架,數(shù)據(jù)導入,元數(shù)據(jù)管理分布式大數(shù)據(jù)存儲,確立分析目標編寫分析程序,大數(shù)據(jù)并行處理引擎,為分析目標生成報表,趨勢圖等,圖表生成工具,大數(shù)據(jù)分析應用,大數(shù)據(jù)分析平臺,,云展大數(shù)據(jù)機—軟件架構,,數(shù)據(jù)收集框架,基于分布式文件系統(tǒng)的數(shù)據(jù)存儲,,,元數(shù)據(jù)管理,E3大數(shù)據(jù)并行處理框架,,SQL接口,E3編程接口,MapReduce接口,可
6、視化工具,大數(shù)據(jù)知識庫,,文本分析工具,結構化數(shù)據(jù)分析工具,云展大數(shù)據(jù)機—硬件架構,標準機架式設計每個機架可容納40臺節(jié)點機節(jié)點機通過千兆以太網連接節(jié)點機采用標準PC服務器可擴展到20個機架原型機:awan(2個機架,76臺節(jié)點機),云展關鍵技術——E3引擎,E3將數(shù)據(jù)處理過程描述為一個線性工作流,工作流中每一個節(jié)點稱為一個階段,每階段包含若干處理單元,每個處理單元對數(shù)據(jù)進行部分處理。E3按照工作流的順序,并行地調度處理單
7、元在計算節(jié)點上運行,自動在處理單元之間傳遞中間運算結果,最終完成整個數(shù)據(jù)處理過程。,pu1,pu1,pu1,pu1,pu2,pu2,pu3,pu4,pu4,pu5,pu5,pu5,云數(shù)據(jù) 存儲服務,云 數(shù)據(jù)存儲服務,,,PU – processing unit (處理單元),E3與阿帕奇Hadoop的性能比較,Grep任務:每個節(jié)點535MSelect任務:每個節(jié)點1G,Grep任務,Select任務,混合式數(shù)據(jù)分析工具,同時支持非結
8、構化的文本分析和結構化的數(shù)據(jù)庫分析建立在統(tǒng)一的E3引擎之上,能夠進行交互和聯(lián)合分析支持對海量數(shù)據(jù)的快速分析,發(fā)現(xiàn)其中隱藏的知識、行為模式等提供描述語言,支持用戶進行自定義的數(shù)據(jù)分析,,文本分析工具,結構化數(shù)據(jù)分析工具,非機構化分析工具,分布式存儲和處理模型無需定義表結構數(shù)據(jù)直接存儲與分布式文件系統(tǒng)中自動錯誤處理和恢復基本的數(shù)據(jù)訪問接口put/get: 隨機的文檔數(shù)據(jù)讀取scan: 批量數(shù)據(jù)掃描tokenize: 將
9、文檔組織成單詞組以提供給上層分析處理分析數(shù)據(jù)接口Extract operator [?]: 提供基于正則表達式和字典的匹配操作Select operator [σ]: 提供基于用戶選擇條件的過濾操作Join operator [?]: 將來自多個數(shù)據(jù)源的文檔/文字流進行合并Consolidate operator [Ω]: 去重操作提供類似于SQL的文本處理分析語言: EPQL,非結構化處理流程,每一個EPQL將對特定集合的
10、文檔進行處理每個文檔將通過4個操作的處理,然后中間結果傳給連接操作和去重操作結果將是符合用戶要求的文檔或統(tǒng)計內容,比如:查找所有包含關鍵詞:[Cloud] [Computing],在2012年產生的網頁統(tǒng)計近一個月內,出現(xiàn)包含釣魚島的文檔與包含日本車銷量內容的文檔的關聯(lián)度,文本分析示例:用戶反饋信息分析,在電子商務網站,如京東等,用戶購買結束后,會對產品購買過程及產品本身進行評價,通過分析用戶的反饋信息,可以發(fā)現(xiàn)其中的問題,結構
11、化數(shù)據(jù)分析,結構化數(shù)據(jù)分析通過維護并定期更新data cube的方式來提供高效的分析查詢結果根據(jù)時間戳來實現(xiàn)同時支持實時事務處理和分析查詢,,數(shù)據(jù)分片,分布式索引技術,在結構化分析工具中,系統(tǒng)建立多維的分布式索引以支持高效的并行查找分布式索引技術建立分布式二級索引支持并發(fā)地在多節(jié)點上同時查詢可以和本地數(shù)據(jù)庫索引連接例如:分布式B樹索引結構,,可視化工具,將分析結果以報表的形式展現(xiàn)給用戶支持線圖、餅圖、柱裝圖、趨勢圖等常用的
12、圖表格式標簽云以及數(shù)據(jù)關聯(lián)挖掘,云展大數(shù)據(jù)機與其他大數(shù)據(jù)分析平臺的比較,分析案例:95598客服服務,主要功能包括客戶檔案查詢、電量電費查詢、業(yè)務辦理進度查詢,以及業(yè)務受理、故障報修、咨詢受理、投訴舉報、消息訂閱主要業(yè)務流程,,,,客戶電話記錄,語音記錄,用戶電話,客戶電話記錄,由客服人員手工錄入,包括:電話起止時間客戶身份信息原因(歸類為:電費查詢、投訴、保修等幾大類)簡單內容概述(不完整,客戶人員匆匆記錄)當前的處理方
13、式——簡單的統(tǒng)計信息:平均電話時??蛻舴植夹畔⒚糠N電話的統(tǒng)計百分比缺乏深度的分析用戶因為什么而投訴,這種投訴是否是普遍存在的每個用戶是否通過撥打955598電話完成了他的請求,語音記錄,用戶和客服之間的對話會被完整記錄為語音文件語音文件包含了豐富的信息:用戶打電話的主要原因客服的服務態(tài)度客服的服務能力用戶的滿意度因為缺少相關工具,當前采用人員采樣收聽的策略,效率低,覆蓋率低,,針對客服信息的大數(shù)據(jù)分析,用戶數(shù)據(jù),
14、,,云展數(shù)據(jù)倉庫,導入,,混合數(shù)據(jù)分析,改進業(yè)務流程,,,產生新的數(shù)據(jù),,關聯(lián),,翻譯,關鍵技術——非結構化語音分析,,,客服信息,用戶信息,語音語調分析,看是否按照規(guī)定的態(tài)度服務,記錄了用戶的投訴內容和對服務的滿意度,,內容分割:按照音色音域,分析結果——用戶滿意度,用戶撥打客服電話都是有一定的目的,目的達到與否則表示了客服的成功率通過對用戶的語義、情緒分析,符合下列模型的,分析認為是正確滿足用戶需求的,不滿,憤怒,疑問,,稱贊,
15、感謝,釋疑,平靜,分析結果——客服質量,客服質量定義為:單位時間內滿足的用戶數(shù)量對某一特定客服人員:,分析結果——熱點分析,通過整理分析用戶通話內容得到用戶投訴的主要目的使用數(shù)據(jù)挖掘和數(shù)據(jù)可視化來統(tǒng)計關鍵問題支持海量數(shù)據(jù)的快速處理分析客戶通話內容,按照詞頻構造標簽云:,關鍵技術——分結構化數(shù)據(jù)分析,系統(tǒng)支持按照關鍵詞(一個或多個)將錄音電話切片分類比如,要查找關于“電費”相關的記錄中主要的投訴內容通過索引和分布式處理機制,可
16、以快速的生成新的統(tǒng)計數(shù)據(jù)(類似于在數(shù)據(jù)倉庫中做切片操作):,關鍵技術——結構化/分結構化混合分析,客服內容由兩部分:關于電話基本信息的關系數(shù)據(jù),具體的語音信息關聯(lián)分析將兩者結合起來進行深度分析:電話耗時10分鐘以下和10分鐘以上的用戶滿意度統(tǒng)計分布在不同區(qū)域的用戶滿意度統(tǒng)計收入在不同范圍的用戶關心的主要問題客服填寫的簡要信息是否和用戶錄音記錄一致客戶電話主要集中來電時間分布,以及和滿意度的關聯(lián)度客服的效率和時間的關系,其他
17、案例,網易私有云平臺推進企業(yè)內數(shù)據(jù)共享、全局信息挖掘與商業(yè)智能,虛擬化,虛擬機、網絡、云硬盤,數(shù)據(jù)管理,DDB、對象存儲、文件中心、關系數(shù)據(jù)存儲、全文檢索、并行分析、Timeline、NewSQL、緩存服務,應用架構,負載均衡(LVS、反向代理)、DNS、消息隊列,擴展功能,圖像處理、文本分析(分詞、標簽、分類)、數(shù)據(jù)挖掘(聚類、關聯(lián)規(guī)則)、語音處理、GIS,數(shù)據(jù)共享,IP城市庫、樂庫、書庫,用戶管理與監(jiān)控平臺,管理員運維平臺,應用平
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 浪潮云海大數(shù)據(jù)一體機 暨云計算及大數(shù)據(jù)解決方案
- 論文大數(shù)據(jù)與云計算
- 云計算+大數(shù)據(jù)學術講座
- 云計算和大數(shù)據(jù)專項
- 大數(shù)據(jù)與云計算(論文)
- 云計算中的數(shù)據(jù)機密性相關問題研究.pdf
- 大數(shù)據(jù)時代的云存儲技術
- 云計算和大數(shù)據(jù)重點專項
- 云計算和大數(shù)據(jù)重點專項2018
- 數(shù)據(jù)機房防雷措施淺析
- idc數(shù)據(jù)機房交流介紹
- 數(shù)據(jù)機房防雷措施淺析
- 基于互聯(lián)網+與大數(shù)據(jù)機器學習的智能健身系統(tǒng)實現(xiàn).pdf
- tier數(shù)據(jù)機房評估系統(tǒng)
- 云環(huán)境下大數(shù)據(jù)迭代計算研究.pdf
- 隨著云計算,大數(shù)據(jù)大會主持詞
- 云計算大數(shù)據(jù)案例分享中科院
- 大數(shù)據(jù)時代云會計的應用研究
- 松原云計算大數(shù)據(jù)中心項目監(jiān)理
- idc數(shù)據(jù)機房運維方案
評論
0/150
提交評論