版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、大數(shù)據(jù)及其在稅務(wù)中的應(yīng)用,2016.10,安徽工程大學(xué)計(jì)算機(jī)與信息學(xué)院,主要內(nèi)容,大數(shù)據(jù)的概念與技術(shù),第一章,4,讓我們先看看“大數(shù)據(jù)時(shí)代”,一段小視頻,5,大數(shù)據(jù)的概念與技術(shù),第一章,,6,,數(shù)據(jù)爆炸式增長(每分鐘……),7,數(shù)據(jù)的爆炸式增長,想駕馭這龐大的數(shù)據(jù),我們必須了解”大數(shù)據(jù)”,地球上至今總共的數(shù)據(jù)量:在2006 年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011 年,這個(gè)數(shù)字達(dá)到了1.8Z
2、B。而有市場研究機(jī)構(gòu)預(yù)測:到2020 年,整個(gè)世界的數(shù)據(jù)總量將會增長44 倍,達(dá)到35.2ZB(1ZB=10 億TB)!,,1PB (拍字節(jié)) = 2^50字節(jié)1EB (艾字節(jié)) = 2^60字節(jié)1ZB (澤字節(jié)) = 2^70字節(jié),8,讓我們來認(rèn)識什么是“大數(shù)據(jù)”,一段小視頻,9,20世紀(jì)90年代,數(shù)據(jù)倉庫之父的Bill Inmon就經(jīng)常提及Big Data,2011年5 月,在“云計(jì)算相遇大數(shù)據(jù)” 為主題的EMC Worl
3、d 2011 會議中,EMC 拋出了Big Data概念,Big Data名詞由來,2011年6月,美國咨詢界的翹楚麥肯錫咨詢公司發(fā)布了《大數(shù)據(jù):下一個(gè)競爭、創(chuàng)新和生產(chǎn)力的前沿領(lǐng)域》的研究報(bào)告,首次向?qū)W界以外的領(lǐng)域推出大數(shù)據(jù)的概念。,10,可采集可衡量,價(jià)值,人的行為活動(dòng),生理行為,自然屬性,社會屬性,交易行為,文化行為,信仰行為,個(gè)體行為,家庭行為,群體行為,……,企業(yè)經(jīng)營活動(dòng),研發(fā),服務(wù),營銷推廣,物流,采購,生產(chǎn),銷售,……,交
4、易活動(dòng),交互活動(dòng),多樣性 相關(guān)性,PC互聯(lián)網(wǎng),移動(dòng)互聯(lián)網(wǎng),物聯(lián)網(wǎng),,數(shù)據(jù)獲取通道,大數(shù)據(jù)的來源,“看”數(shù)據(jù)的不同方式,可視:結(jié)構(gòu)化資料 15%,未視:半/非結(jié)構(gòu)化數(shù)據(jù) 85%,DB/DW,主管們看的戰(zhàn)情數(shù)位儀表板,其實(shí)是殘缺的…,12,,大數(shù)據(jù) = 海量數(shù)據(jù) + 復(fù)雜類型的數(shù)據(jù),海量交易數(shù)據(jù):企業(yè)內(nèi)部的經(jīng)營交易信息主要包括聯(lián)機(jī)交易數(shù)據(jù)和聯(lián)機(jī)分析數(shù)據(jù),是結(jié)構(gòu)化的、通過關(guān)系數(shù)據(jù)庫進(jìn)行管理和訪問的靜態(tài)、歷史數(shù)據(jù)。通過這些數(shù)據(jù),我們能了
5、解過去發(fā)生了什么。,大數(shù)據(jù)包括:交易數(shù)據(jù)和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,海量交互數(shù)據(jù):源于Facebook、Twitter、LinkedIn及其他來源的社交媒體數(shù)據(jù)構(gòu)成。它包括了呼叫詳細(xì)記錄CDR、設(shè)備和傳感器信息、GPS和地理定位映射數(shù)據(jù)、通過管理文件傳輸Manage File Transfer協(xié)議傳送的海量圖像文件、Web文本和點(diǎn)擊流數(shù)據(jù)、科學(xué)信息、電子郵件等等??梢愿嬖V我們未來會發(fā)生什么。,海量數(shù)據(jù)處理:大數(shù)據(jù)的涌現(xiàn)已經(jīng)催生出
6、了設(shè)計(jì)用于數(shù)據(jù)密集型處理的架構(gòu)。例如具有開放源碼、在商品硬件群中運(yùn)行的Apache Hadoop。,大數(shù)據(jù)的構(gòu)成,10萬 GB,10萬 TB,需要更高性價(jià)比的數(shù)據(jù)計(jì)算與儲存方式,數(shù)據(jù)庫,數(shù)據(jù)倉庫,,,,計(jì)算更快 存儲更省,15,大數(shù)據(jù)=海量數(shù)據(jù)+復(fù)雜類型數(shù)據(jù),增長如此之塊,以至于難以使用現(xiàn)有的數(shù)據(jù)庫管理工具來駕馭,困難在于數(shù)據(jù)的獲取、存貯、搜索、共享、分析和可視化等方面,大數(shù)據(jù)的定義,,,,數(shù)據(jù)量,復(fù)雜性:種類和速度,銷量,庫存,薪
7、酬表,客戶信息,合約,ERP/CRM,WEB2.0,廣告,博客,搜索營銷,文本/圖像,網(wǎng)絡(luò)日志,,大數(shù)據(jù),社會情緒,音頻/視頻,傳感器,RFID,維基/博客,微博,金融信息,個(gè)人數(shù)據(jù),位置信息,政府信息,氣象數(shù)據(jù),保險(xiǎn)信息,EBPBTBGB,維基的大數(shù)據(jù)定義,任何超過一臺計(jì)算機(jī)處理能力的龐大數(shù)據(jù)量,亞馬遜的大數(shù)據(jù)定義,需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn),
8、Informatica的大數(shù)據(jù)定義,大數(shù)據(jù)=交易數(shù)據(jù)+互動(dòng)數(shù)據(jù)+觀測數(shù)據(jù),中國電信的大數(shù)據(jù)定義,百度的大數(shù)據(jù)定義,如果自然界中的事件完全不可預(yù)測地隨機(jī)發(fā)生,人們的生活將無法忍受;與此相反,如果每一件事情都是確定的、完全可以預(yù)測的,則生活將是無趣的。利用因果關(guān)系解釋觀測的現(xiàn)象或預(yù)測未來存在邏輯和實(shí)際上的困難。,對大數(shù)據(jù)的理性認(rèn)知,[美]C.R 勞,與傳統(tǒng)比較,大數(shù)據(jù)的分析處理的核心是預(yù)測和推斷,根本的變革在于不刻意追求因果關(guān)系,而更多關(guān)
9、注相關(guān)關(guān)系。也就是說,只要知道和什么有關(guān),而不必強(qiáng)求為什么有關(guān)。,[英]舍恩伯格,大數(shù)據(jù)時(shí)代來臨,使人類第一次有機(jī)會和條件在非常多和非常深入的層次獲得和使用全面數(shù)據(jù)、完整數(shù)據(jù)和系統(tǒng)數(shù)據(jù),簡而言之就是樣本=總體。,[英]舍恩伯格,大數(shù)據(jù)為政府統(tǒng)計(jì)提供了總體性、非結(jié)構(gòu)化、豐富真實(shí)的原始資料,可以極大地縮短數(shù)據(jù)采集時(shí)間,減少報(bào)表填報(bào)任務(wù),減輕調(diào)查對象負(fù)擔(dān),提高統(tǒng)計(jì)數(shù)據(jù)質(zhì)量。,國家統(tǒng)計(jì)局 馬建堂,大數(shù)據(jù),也叫全局?jǐn)?shù)據(jù)、總體數(shù)據(jù),數(shù)據(jù)量越大其預(yù)測
10、和推斷的準(zhǔn)確性越高,大數(shù)據(jù)市場分析,中央政府對大數(shù)據(jù)的重視程度,19,大數(shù)據(jù)上升為國家戰(zhàn)略,大數(shù)據(jù)的概念與技術(shù),第一章,,21,大數(shù)據(jù)的4V特征,Big Data大數(shù)據(jù),22,大數(shù)據(jù)的4V特征(Volume),1Byte,1KB,1MB,1GB,1TB,1PB,1EB,1ZB,1YB,23,Social Media,Machine / Sensor,DOC / Media,Web Clickstream,,Apps,Call Log
11、,Log,半結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)的4V特征(Variety),24,大數(shù)據(jù)的4V特征(Variety),25,大數(shù)據(jù)的4V特征(Velocity),26,大數(shù)據(jù)的4V特征(Value),挖掘大數(shù)據(jù)的價(jià)值類似沙里淘金,從海量數(shù)據(jù)中挖掘稀疏但珍貴的信息價(jià)值密度低,是大數(shù)據(jù)的一個(gè)典型特征,大數(shù)據(jù)不僅僅是技術(shù),關(guān)鍵是產(chǎn)生價(jià)值可以從各個(gè)層面進(jìn)行優(yōu)化,更要考慮整體,27,大數(shù)據(jù)帶來的思維變革(更多),28,大數(shù)據(jù)帶來的思維變革(更雜),
12、從皮尺到哈勃望遠(yuǎn)鏡,人類一直在追求測量的精確性,一方面源于對未知世界的認(rèn)知;一方面也源于收集信息的有限性。,大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效IBM的機(jī)器翻譯 VS Google的機(jī)器翻譯紛繁的數(shù)據(jù)越多越好大數(shù)據(jù)時(shí)代要求我們重新審視數(shù)據(jù)精確性的優(yōu)略大數(shù)據(jù)不僅讓我們不再期待精確性,也讓我們無法實(shí)現(xiàn)精確性錯(cuò)誤不是大數(shù)據(jù)固有的問題,而是一個(gè)需要我們?nèi)ソ鉀Q的問題,而且會將長期存在混雜性,不是竭力避免,而是標(biāo)準(zhǔn)途徑,29,大數(shù)據(jù)
13、帶來的思維變革(更好),Kaggle,一個(gè)為所有人提供數(shù)據(jù)挖掘競賽的公司,在一次關(guān)于二手車的數(shù)據(jù)分析比賽中得到,橙色汽車有質(zhì)量問題的可能性是其它顏色汽車的一半。為什么?探尋事物的因果關(guān)系是人類的本性,但是大數(shù)據(jù)時(shí)代可以做某種程度的妥協(xié),可以只需要關(guān)注“是什么”,而忽略“為什么?”,30,更好不是因果關(guān)系而是相關(guān)關(guān)系,更多不是隨機(jī)樣本而是全部數(shù)據(jù),,更雜不是精確性而是混雜性,大數(shù)據(jù)帶來的思維變革,31,大數(shù)據(jù)的概念與技術(shù),第一章
14、,,32,先讓我們看看大數(shù)據(jù)處理應(yīng)用過程,一段小視頻,33,待處理的數(shù)據(jù),數(shù)據(jù)規(guī)模,大(以GB、TB、PB為處理單位),?。ㄒ訫B為處理單位),數(shù)據(jù)類型,繁多(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化),單一(結(jié)構(gòu)化為主),模式和數(shù)據(jù)的關(guān)系,先有數(shù)據(jù)后有模式,模式隨數(shù)據(jù)增多演變,先有模式后有數(shù)據(jù)(先有池塘后有魚),處理對象,“魚”通過某些魚判斷其他魚是否存在,數(shù)據(jù)(池塘中的魚),數(shù)據(jù)庫(池塘捕魚),大數(shù)據(jù)(大海捕魚),大數(shù)據(jù)涉及的關(guān)鍵技術(shù),35,,
15、,,基于SQL語言: 面對OLAP的傳統(tǒng)行和列,不基于SQL或map-reduce的: 由谷歌率先發(fā)起,數(shù)據(jù)流: 基于運(yùn)行商數(shù)據(jù)直接生成任意圖形,,,,,,數(shù)據(jù)入口/匯聚,數(shù)據(jù)平臺,分析,,,,,傳統(tǒng)交付模式 - 單片或基于設(shè)備的解決方案,,云: 能夠充分利用物理設(shè)施的彈性,以實(shí)現(xiàn)處理快速增長數(shù)據(jù)的能力,“數(shù)據(jù)庫將演變成一個(gè)虛擬的,基于云計(jì)算,超級可擴(kuò)展的分布式平臺。”- Forrester analyst Jim
16、 Kobielus,大數(shù)據(jù)涉及的關(guān)鍵技術(shù),36,大數(shù)據(jù)處理技術(shù)特征,,,,,,數(shù)據(jù)無限分而治之,功能有限復(fù)制分發(fā),大數(shù)據(jù)的分析模型,研究對象由組織、用戶、大數(shù)據(jù)和工具構(gòu)成的運(yùn)行系統(tǒng)研究內(nèi)容大數(shù)據(jù)的構(gòu)成 大數(shù)據(jù)的行為 大數(shù)據(jù)的行為和數(shù)據(jù)的組織研究方法知識工程解構(gòu)大數(shù)據(jù)系統(tǒng)研發(fā)工程支撐大數(shù)據(jù)系統(tǒng)價(jià)值工程牽引大數(shù)據(jù)系統(tǒng)研究目標(biāo)大數(shù)據(jù)生產(chǎn)平臺大數(shù)據(jù)開發(fā)平臺大數(shù)據(jù)采集平臺大數(shù)據(jù)應(yīng)用平臺研究重點(diǎn)數(shù)據(jù)分而
17、治之資源組織調(diào)度邏輯復(fù)制遷移,為什么,是什么,怎么做,,云計(jì)算與大數(shù)據(jù),大數(shù)據(jù)應(yīng)用運(yùn)行在云平臺之上,,,,,如果數(shù)據(jù)是財(cái)富,那么大數(shù)據(jù)就是寶藏;云計(jì)算就是挖掘和利用寶藏的利器!沒有強(qiáng)大的計(jì)算能力,數(shù)據(jù)寶藏終究是鏡中花;沒有大數(shù)據(jù)的存儲和積淀,云計(jì)算也只能是殺雞用的宰牛刀!,39,什么是云計(jì)算(一段小視頻),Hadoop平臺,Hadoop是基于Google有關(guān)大數(shù)據(jù)的論文的開源項(xiàng)目,最初的框架由Doug Cutting在2005
18、年提出,目前是由Apache維護(hù)的開源項(xiàng)目。從初創(chuàng)到現(xiàn)在,Hadoop體系在10多年中開發(fā)完成了一系列重要的子項(xiàng)目,已經(jīng)形成一個(gè)涵蓋數(shù)據(jù)存儲、管理和分析功能的較為完整的大數(shù)據(jù)生態(tài)系統(tǒng),成為大數(shù)據(jù)存儲與處理領(lǐng)域地位最重要、應(yīng)用最廣泛的開源框架。,一段視頻介紹Hadoop的誕生與發(fā)展,40,Hadoop平臺,HDFS分布式文件系統(tǒng),存儲大數(shù)據(jù),如同大壩前用于蓄水的水庫(大壩發(fā)電前先要蓄水),41,Hadoop平臺,HBase,實(shí)時(shí)、分布
19、式、高緯數(shù)據(jù)庫,對數(shù)據(jù)快速讀取。(弱水三千、只取一瓢),42,Hadoop平臺,MapReduce,分布式計(jì)算框架,實(shí)現(xiàn)數(shù)據(jù)并行處理(一頭牛拖不動(dòng),多頭牛一起拖),43,Hadoop平臺,Hive,數(shù)據(jù)倉庫,支持提取、查詢、分析(英文意為:蜂房,如同在大數(shù)據(jù)花園中采集花粉釀制蜂蜜),44,Hadoop平臺,Pig,數(shù)據(jù)流處理語言,提供編程接口(豬,懶惰而又渾身是寶,伸伸懶腰,不用費(fèi)九牛二虎之力就能完成所需的數(shù)據(jù)操作),,,,45
20、,Hadoop平臺,Mahout,數(shù)據(jù)挖掘(英文原意:騎象人,馴象人。分布式機(jī)器學(xué)習(xí)算法的集合),46,Hadoop平臺,Flume,日志收集工具(英文原意:水管,日志數(shù)據(jù)如同水管中的涓涓細(xì)流匯集到大數(shù)據(jù)平臺),47,Hadoop平臺,Sqoop,關(guān)系數(shù)據(jù)ETL工具(數(shù)據(jù)搬運(yùn)工,完成外部數(shù)據(jù)和大數(shù)據(jù)平臺中的數(shù)據(jù)的“搬運(yùn)”),,Hadoop平臺,ZooKeeper,分布式協(xié)作服務(wù)(英文原意:動(dòng)物園管理員),49,大數(shù)據(jù)帶來的機(jī)遇與
21、挑戰(zhàn),第二章,,50,大數(shù)據(jù)改變生活,51,。,大數(shù)據(jù)對政府、金融機(jī)構(gòu)、企業(yè)來說,象空氣一樣不可或缺!,讓我們先看看一些生活中的例子,一段小視頻,52,消費(fèi)大數(shù)據(jù),53,亞馬遜 “預(yù)測式發(fā)貨”的新專利,可以通過對用戶數(shù)據(jù)的分析,在他們還沒有下單購物前,提前發(fā)出包裹。 這項(xiàng)技術(shù)可以縮短發(fā)貨時(shí)間,從而降低消費(fèi)者前往實(shí)體店的沖動(dòng)。從下單到收貨之間的時(shí)間延遲可能會降低人們的購物意愿,導(dǎo)致他們放棄網(wǎng)上購物。 所以,亞馬
22、遜可能會根據(jù)之前的訂單和其他因素,預(yù)測用戶的購物習(xí)慣,從而在他們實(shí)際下單前便將包裹發(fā)出。根據(jù)該專利文件,雖然包裹會提前從亞馬遜發(fā)出,但在用戶正式下單前,這些包裹仍會暫存在快遞公司的轉(zhuǎn)運(yùn)中心或卡車?yán)铩?亞馬遜為了決定要運(yùn)送哪些貨物,亞馬遜可能會參考之前的訂單、商品搜索記錄、愿望清單、購物車,甚至包括用戶的鼠標(biāo)在某件商品上懸停的時(shí)間。,,大數(shù)據(jù)+政治,54,奧巴馬大選中,奧巴馬背后的數(shù)據(jù)分析團(tuán)隊(duì)一直在收集、存儲和分析選民數(shù)據(jù)。
23、 在大選中,奧巴馬競選陣營的高級助理們決定將參考這一團(tuán)隊(duì)所得出的數(shù)據(jù)分析結(jié)果來制定下一步的競選方案。利用在競選中可獲得的選民行動(dòng)、行為、支持偏向方面的大量數(shù)據(jù)。 比如,在東海岸找到一位對女性群體具備相同號召力的名人,從而復(fù)制“克魯尼效應(yīng)”并為奧巴馬籌集競選資金。 “Twitter的政治指數(shù)”提供了一個(gè)衡量社會化媒體平臺的用戶如何評價(jià)候選人的方式。奧巴馬積極的情緒指數(shù)是59,而羅姆尼的只有53,證監(jiān)會大數(shù)據(jù),5
24、5,回顧“老鼠倉”的查處過程,在馬樂一案中,“大數(shù)據(jù)”首次介入。深交所此前通過“大數(shù)據(jù)”查出的可疑賬戶高達(dá)300個(gè)。 實(shí)際上,早在2009年,上交所曾經(jīng)有過利用“大數(shù)據(jù)”設(shè)置“捕鼠器”的設(shè)想。通過建立相關(guān)的模型,設(shè)定一定的指標(biāo)預(yù)警,即相關(guān)指標(biāo)達(dá)到某個(gè)預(yù)警點(diǎn)時(shí)監(jiān)控系統(tǒng)會自動(dòng)報(bào)警。 而此次在馬樂案中亮相的深交所的“大數(shù)據(jù)” 監(jiān)測系統(tǒng),更是引起了廣泛關(guān)注。深交所有幾十人的監(jiān)控室,設(shè)置了200多個(gè)指標(biāo)用于監(jiān)測估計(jì),一旦
25、出現(xiàn)股價(jià)偏離大盤走勢,深交所利用大數(shù)據(jù)查探異動(dòng)背后是哪些人或機(jī)構(gòu)在參與。,馬樂,博時(shí)基金明星基金經(jīng)理,在任期間先于、同期或稍晚于其管理的“博時(shí)精選”基金賬戶買入相同股票76只,累計(jì)成交金額高達(dá)10.5億余元,從中非法獲利1883萬余元,金融交易大數(shù)據(jù),56,量化交易,程序化交易,高頻交易是大數(shù)據(jù)應(yīng)用比較多的領(lǐng)域。 全球2/3的股票交易量是由高頻交易所創(chuàng)造的,參與者總收益每年高達(dá)80億美元。其中,大數(shù)據(jù)算法被用來作出交易
26、決定?,F(xiàn)在,大多數(shù)股權(quán)交易都是通過大數(shù)據(jù)算法進(jìn)行,這些算法越來越多地開始考慮社交媒體網(wǎng)絡(luò)和新聞網(wǎng)站的信息來在幾秒內(nèi)做出買入和賣出的決定。當(dāng)一個(gè)產(chǎn)品可以在多個(gè)交易所交易時(shí),會形成不同的定價(jià),在這當(dāng)中,誰能夠最快地捕捉到同一個(gè)產(chǎn)品在不同交易所之間的顯著價(jià)差,誰就能捕捉到瞬間套利機(jī)會,技術(shù)成為了重要因素。,,制造業(yè)大數(shù)據(jù),57,在摩托車生產(chǎn)廠商哈雷·戴維森公司位于賓尼法尼亞州約克市新翻新的摩托車制造廠,軟件不停的在記錄著微小的制
27、造數(shù)據(jù),如噴漆室風(fēng)扇的速度等等。當(dāng)軟件察覺風(fēng)扇速度、溫度、濕度或其它變量脫離規(guī)定數(shù)值,它就會自動(dòng)調(diào)節(jié)機(jī)械。哈雷·戴維森同時(shí)還使用軟件,還尋找制約公司每86秒完成一臺摩托車制造工作的瓶頸。最近,這家公司的管理者通過研究數(shù)據(jù),認(rèn)為安裝后擋泥板的時(shí)間過長。通過調(diào)整工廠配置,哈雷·戴維森提高了安裝該配件的速度。 美國一些紡織及化工生產(chǎn)商,根據(jù)從不同的百貨公司POS機(jī)上收集的產(chǎn)品銷售速度信息,將原來的18周送貨速度減
28、少到3周,這對百貨公司分銷商來說,能以更快的速度拿到貨物,減少倉儲。對生產(chǎn)商來說,積攢的材料倉儲也能減少很多。,58,谷歌基于每天來自全球的30多億條搜索指令設(shè)立了一個(gè)系統(tǒng),這個(gè)系統(tǒng)在2009 年甲流爆發(fā)之前就開始對美國各地區(qū)進(jìn)行“流感預(yù)報(bào)”,并推出了“谷歌流感趨勢”服務(wù)。谷歌在這項(xiàng)服務(wù)的產(chǎn)品介紹中寫道:搜索流感相關(guān)主題的人數(shù)與實(shí)際患有流感癥狀的人數(shù)之間存在著密切的關(guān)系。雖然并非每個(gè)搜索“流感”的人都患有流感,但谷歌發(fā)現(xiàn)了一些檢索詞
29、條的組合并用特定的數(shù)學(xué)模型對其進(jìn)行分析后發(fā)現(xiàn),這些分析結(jié)果與傳統(tǒng)流感監(jiān)測系統(tǒng)監(jiān)測結(jié)果的相關(guān)性高達(dá)97%。這也就表示,谷歌公司能做出與疾控部門同樣準(zhǔn)確的傳染源位置判斷,并且在時(shí)間上提前了一到兩周。”,,醫(yī)療大數(shù)據(jù),能源大數(shù)據(jù),59,國際大石油公司一直都非常重視數(shù)據(jù)管理。如雪佛龍公司將5萬臺桌面系統(tǒng)與1800個(gè)公司站點(diǎn)連接,消除煉油、銷售與運(yùn)輸“下游系統(tǒng)”中的重復(fù)流程和系統(tǒng),每年節(jié)省5000萬美元,過去4年已獲得了凈現(xiàn)值約為2億美元的回
30、報(bào)。準(zhǔn)確預(yù)測太陽能和風(fēng)能需要分析大量數(shù)據(jù),包括風(fēng)速、云層等氣象數(shù)據(jù)。丹麥風(fēng)輪機(jī)制造商維斯塔斯( Vestas Wind Systems),通過在世界上最大的超級計(jì)算機(jī)上部署IBM大數(shù)據(jù)解決方案,得以通過分析包括PB量級氣象報(bào)告\潮汐相位、地理空間、衛(wèi)星圖像等結(jié)構(gòu)化及非結(jié)構(gòu)化的海量數(shù)據(jù),優(yōu)化風(fēng)力渦輪機(jī)布局,有效提高風(fēng)力渦輪機(jī)的性能,為客戶提供精確和優(yōu)化的風(fēng)力渦輪機(jī)配置方案不但幫助客戶降低每千瓦時(shí)的成本,并且提高了客戶投資回報(bào)估計(jì)的準(zhǔn)確
31、度,同時(shí)它將業(yè)務(wù)用戶請求的響應(yīng)時(shí)間從幾星期縮短到幾小時(shí)。,交通大數(shù)據(jù),60,UPS最新的大數(shù)據(jù)來源是安裝在公司4.6萬多輛卡車上的遠(yuǎn)程通信傳感器,這些傳感器能夠傳回車速、方向、剎車和動(dòng)力性能等方面的數(shù)據(jù)。收集到的數(shù)據(jù)流不僅能說明車輛的日常性能,還能幫助公司重新設(shè)計(jì)物流路線。大量的在線地圖數(shù)據(jù)和優(yōu)化算法,最終能幫助UPS實(shí)時(shí)地調(diào)配駕駛員的收貨和配送路線。該系統(tǒng)為UPS減少了8500萬英里的物流里程,由此節(jié)約了840萬加侖的汽油。,,,文
32、化傳媒大數(shù)據(jù),61,與傳統(tǒng)電視劇有別,《紙牌屋》是一部根據(jù)“大數(shù)據(jù)”制作的作品。制作方Netflix是美國最具影響力的影視網(wǎng)站之一,在美國本土有約2900萬的訂閱用戶。Netflix成功之處在于其強(qiáng)大的推薦系統(tǒng)Cinematch,該系統(tǒng)基于用戶視頻點(diǎn)播的基礎(chǔ)數(shù)據(jù)如評分、播放、快進(jìn)、時(shí)間、地點(diǎn)、終端等,儲存在數(shù)據(jù)庫后通過數(shù)據(jù)分析,計(jì)算出用戶可能喜愛的影片,并為他提供定制化的推薦。Netflix發(fā)布的數(shù)據(jù)顯示,用戶在Netflix上每天
33、產(chǎn)生3000多萬個(gè)行為,比如暫停、回放或者快進(jìn),同時(shí),用戶每天還會給出400萬個(gè)評分,以及300萬次搜索請求。Netflix遂決定用這些數(shù)據(jù)來制作一部電視劇,投資過億美元制作出《紙牌屋》。Netflix發(fā)現(xiàn),其用戶中有很多人仍在點(diǎn)播1991年BBC經(jīng)典老片《紙牌屋》,這些觀眾中許多人喜歡大衛(wèi)·芬奇,觀眾大多愛看奧斯卡得主凱文·史派西的電影,由此Netflix邀請大衛(wèi)·芬奇為導(dǎo)演,凱文·史派西為主
34、演翻拍了《紙牌屋》這一政治題材劇。2013年2月《紙牌屋》上線后,用戶數(shù)增加了300萬,達(dá)到2920萬。,航空大數(shù)據(jù),62,Farecast 已經(jīng)擁有驚人的約2000億條飛行數(shù)據(jù)記錄。用來推測當(dāng)前網(wǎng)頁上的機(jī)票價(jià)格是否合理。作為一種商品,同一架飛機(jī)上每個(gè)座位的價(jià)格本來不應(yīng)該有差別。但實(shí)際上,價(jià)格卻千差萬別,其中緣由只有航空公司自己清楚。 Farecast預(yù)測當(dāng)前的機(jī)票價(jià)格在未來一段時(shí)間內(nèi)會上漲還是下降。這個(gè)系統(tǒng)需要分析所有特定航線
35、機(jī)票的銷售價(jià)格并確定票價(jià)與提前購買天數(shù)的關(guān)系。 Farecast 票價(jià)預(yù)測的準(zhǔn)確度已經(jīng)高達(dá)75%,使用Farecast 票價(jià)預(yù)測工具購買機(jī)票的旅客,平均每張機(jī)票可節(jié)省50美元。,63,64,機(jī)遇——大數(shù)據(jù)技術(shù)促進(jìn)國家和社會發(fā)展,大數(shù)據(jù)技術(shù)的運(yùn)用前景是十分光明的。當(dāng)前,我國正處在全面建成小康社會征程中,工業(yè)化、信息化、城鎮(zhèn)化、農(nóng)業(yè)現(xiàn)代化任務(wù)很重,建設(shè)下一代信息基礎(chǔ)設(shè)施,發(fā)展現(xiàn)代信息技術(shù)產(chǎn)業(yè)體系,健全信息安全保障體系,推進(jìn)信息網(wǎng)絡(luò)技術(shù)
36、廣泛運(yùn)用,是實(shí)現(xiàn)四化同步發(fā)展的保證。大數(shù)據(jù)分析對我們深刻領(lǐng)會世情和國情,把握規(guī)律,實(shí)現(xiàn)科學(xué)發(fā)展,做出科學(xué)決策具有重要意義,我們必須重新認(rèn)識數(shù)據(jù)的重要價(jià)值。,64,大數(shù)據(jù)所能帶來的巨大商業(yè)價(jià)值,被認(rèn)為將引領(lǐng)一場足以與20世紀(jì)計(jì)算機(jī)革命匹敵的巨大變革。大數(shù)據(jù)正在對每個(gè)領(lǐng)域都造成影響,包括商業(yè)、經(jīng)濟(jì)等領(lǐng)域。大數(shù)據(jù)正在促生新的藍(lán)海,催生新的經(jīng)濟(jì)增長點(diǎn),正在成為企業(yè)競爭的新焦點(diǎn)。,網(wǎng)民和消費(fèi)者的界限正在變得模糊,無處不在的智能終端,隨時(shí)在線的網(wǎng)絡(luò)
37、傳輸,互動(dòng)頻繁的社交網(wǎng)絡(luò)讓以往只是網(wǎng)頁瀏覽者的網(wǎng)民的面孔從模糊變得清晰,企業(yè)第一次有機(jī)會進(jìn)行大規(guī)模的精準(zhǔn)化的消費(fèi)者行為研究:作為保持著持續(xù)變革欲望的企業(yè),主動(dòng)地?fù)肀н@種變化,從戰(zhàn)略到戰(zhàn)術(shù)層而開始自我的蛻變和進(jìn)化將會讓他們更加適應(yīng)這個(gè)新的時(shí)代,大數(shù)據(jù)藍(lán)海成為未來競爭的制高點(diǎn)。,,機(jī)遇——大數(shù)據(jù)藍(lán)海成為企業(yè)競爭的新焦點(diǎn),65,66,機(jī)遇——大數(shù)據(jù)時(shí)代呼喚創(chuàng)新型人才,蓋特納咨詢公司預(yù)測大數(shù)據(jù)將為全球帶440萬個(gè)IT新崗位和上千萬個(gè)非IT崗位。
38、麥肯錫公司預(yù)測美國到2018年需要深度數(shù)據(jù)分析人才44萬--49萬,缺口14萬--19萬人;需要既熟悉本單位需求又了解大數(shù)據(jù)技術(shù)與應(yīng)用的管理者150萬,這方面的人才缺口更大。中國是人才大國,但能理解與應(yīng)用大數(shù)據(jù)的創(chuàng)新人才卻是稀缺資源。,66,大數(shù)據(jù)帶來的機(jī)遇與挑戰(zhàn),第二章,,67,68,今天,大數(shù)據(jù)似乎成了“靈丹妙藥”,“包治百病”,無所不能。但千萬別把“大數(shù)據(jù)”用做解決世界上所有問題的全能辦法,無論是管理城市到消除貧困,制止恐怖襲擊
39、、疾病流行到拯救地球環(huán)境等,以為有了“大數(shù)據(jù)”,就沒有解決不了的問題,這也是一種誤解。人類的思想、個(gè)人的文化和行為模式、不同國家及社會的存在發(fā)展都非常復(fù)雜、曲折和獨(dú)特,顯然不能全部由計(jì)算機(jī)來“數(shù)字自己說話”。無論到何時(shí),其實(shí)都還是人在思考和“說話”。,當(dāng)你有了錘子,好像什么問題都看上去像釘子!,大數(shù)據(jù)的挑戰(zhàn),摘自工程院院士鄔賀銓的報(bào)告,大數(shù)據(jù)的挑戰(zhàn),PRISM,,稅務(wù)管理的機(jī)會與挑戰(zhàn),需要關(guān)注的問題: 稅源數(shù)據(jù)獲取是一切
40、工作的基礎(chǔ)! 新模式推廣的方式轉(zhuǎn)變——如何由“抓管理”變化為“抓管理、重服務(wù)”?,稅務(wù)管理的機(jī)會與挑戰(zhàn),稅務(wù)管理未來展望,大數(shù)據(jù)在稅務(wù)中的應(yīng)用,第三章,75,讓我們先看看一些實(shí)際應(yīng)用的例子,一段小視頻,76,財(cái)稅稅源交易信息采集系統(tǒng)對企業(yè)和消費(fèi)者的服務(wù)和價(jià)值,系統(tǒng)建設(shè)的理念和準(zhǔn)則,77,財(cái)稅物聯(lián)網(wǎng)系統(tǒng)示意圖,78,,,手機(jī),手機(jī),,MAC,,MAC,定位設(shè)備,定位設(shè)備,商家,財(cái)稅管理部門,用戶群,手機(jī),,稅源數(shù)據(jù)采集系統(tǒng)拓
41、撲圖,,GAG –交易數(shù)據(jù)采集設(shè)備,服務(wù)轉(zhuǎn)發(fā)器,多功能數(shù)據(jù)接收器,#{商店名稱}會員:#{會員}收銀員:#{收銀員}流水號:#{流水號}交易時(shí)間:#{交易時(shí)間}--------------------------------商品 條碼 單價(jià) 數(shù)量 小計(jì)--------------------------------#item#{商品名稱} #{導(dǎo)購員}#{條碼} #{單價(jià)} #{數(shù)量} #{小計(jì)}#item
42、--------------------------------總件數(shù):#{總件數(shù)}整單折扣:#{整單折扣}付款方式:#{付款方式}總計(jì):#{總計(jì)} 實(shí)收:#{實(shí)收} 找零:#{找零}--------------------------------聯(lián)系電話:#{聯(lián)系電話}聯(lián)系地址:#{聯(lián)系地址}--------------------------------請當(dāng)面點(diǎn)清所購商品和找零,并保管好收銀小票以做開發(fā)票,退換
43、貨憑證,謝謝惠顧!歡迎下次光臨--------------------------------,稅源數(shù)據(jù)采集——交易明細(xì)數(shù)據(jù),稅源采集——交易關(guān)聯(lián)數(shù)據(jù),詳細(xì)內(nèi)容請點(diǎn)擊,ST850 服務(wù)轉(zhuǎn)發(fā)器,ST600 服務(wù)轉(zhuǎn)發(fā)器,交易數(shù)據(jù)獲取核心設(shè)備——服務(wù)轉(zhuǎn)發(fā)器,82,交易數(shù)據(jù)獲取核心設(shè)備——服務(wù)轉(zhuǎn)發(fā)器,83,刷卡,,掃描商品,,手機(jī)APP推送訂單,,現(xiàn)金結(jié)賬,,手機(jī)APP推送賬單,,平臺系統(tǒng)——多種交易流程支持,示例:手機(jī)交易流程,靈活支持多
44、種交易流程,完成交易數(shù)據(jù)獲取。,,商家信息→實(shí)體店管理→操作,平臺系統(tǒng)后臺—查看商家詳細(xì)信息,平臺系統(tǒng)后臺——查看商家交易信息,平臺系統(tǒng)后臺——查看交易關(guān)聯(lián)詳細(xì)信息,提供給商家的整合營銷數(shù)據(jù)服務(wù),以城市商業(yè)綜合體為例:,88,場內(nèi)即時(shí)APP Message信息誘導(dǎo)基于位置的商家優(yōu)惠信息誘導(dǎo)基于位置的品牌產(chǎn)品激勵(lì)信息誘導(dǎo)收銀臺服務(wù)客戶互動(dòng)屏誘導(dǎo)賬單即時(shí)省錢誘導(dǎo)會員綜合服務(wù)誘導(dǎo)結(jié)賬票據(jù)追加信息誘導(dǎo)掃描票據(jù)二維碼成為會員獲取獎(jiǎng)勵(lì)
45、,線下會員發(fā)展——基于移動(dòng)身份的會員發(fā)展,89,在店中經(jīng)營你的消費(fèi)者,90,個(gè)性化店面客顯屏個(gè)性化推薦個(gè)性化陳列基于購買商品的營銷歷史消費(fèi)商品基于消費(fèi)整體的營銷好友推薦基于支付方式的營銷店家吆喝個(gè)性化誘導(dǎo),離店?duì)顟B(tài)經(jīng)營你的消費(fèi)者,91,平臺系統(tǒng)后臺——稅源數(shù)據(jù)分析,平臺系統(tǒng)后臺——稅源數(shù)據(jù)分析,提供電子發(fā)票管理手機(jī)發(fā)送發(fā)票信息管理發(fā)票信息錄入交易單據(jù)憑證管理,Gooagoo 服務(wù)轉(zhuǎn)發(fā)器,商戶自有POS,發(fā)票打印機(jī)
46、,發(fā)票管理,內(nèi)屏:用戶手機(jī)傳送的發(fā)票信息+發(fā)票信息錄入+交易單據(jù)信息,打印發(fā)票,,發(fā)票業(yè)務(wù)模塊,94,電子發(fā)票,95,電子發(fā)票,支持電子發(fā)票的生成、存儲、 核對、打印。,96,,,,發(fā)票自助和優(yōu)惠券、停車券申領(lǐng),發(fā)票打印服務(wù)停車券打印服務(wù)優(yōu)惠憑證打印服務(wù)商品、品牌、店鋪查詢服務(wù)積分查詢服務(wù),與消費(fèi)者互動(dòng)支持手機(jī)二維碼互動(dòng)支持手機(jī)精細(xì)聲波 互動(dòng)支持NFC、RFID會員卡互動(dòng)支持磁條卡、IC卡等會員卡互動(dòng),發(fā)票業(yè)務(wù)模塊——自
47、助打印,97,優(yōu)惠券分享掃二維碼將該筆交易優(yōu)惠券直接分享朋友圈(無需關(guān)注電商賬號)電子賬單下發(fā)關(guān)注電商微信賬號的用戶自動(dòng)下發(fā)詳細(xì)賬單非關(guān)注用戶掃二維碼獲取賬單,并可直接分享朋友圈產(chǎn)品和服務(wù)分享產(chǎn)品和服務(wù)評論關(guān)聯(lián)產(chǎn)品分享基于微信的逛伴群品牌逛伴群零售商家逛伴群,輕松進(jìn)行社交內(nèi)容分發(fā),,,我在菱角湖萬達(dá)廣場用萬匯卡優(yōu)惠了50元,太贊了!,微信互動(dòng)模塊,98,當(dāng)前,大數(shù)據(jù)的應(yīng)用只是冰山一角,絕大部分隱藏在表面之下。未
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- catia?。觯翟谒そ饘俳Y(jié)構(gòu)設(shè)計(jì)中的應(yīng)用
- arduino sensor shield v5
- catia v5 通用建模規(guī)范
- catia v5修改標(biāo)注的引線
- 大數(shù)據(jù)在醫(yī)療中的應(yīng)用
- 大數(shù)據(jù)在日常生活中的應(yīng)用及其影響
- 大數(shù)據(jù)在日常生活中的應(yīng)用及其影響
- 大數(shù)據(jù)在軟件測試中的應(yīng)用
- v5使用手冊docx
- 大數(shù)據(jù)在企業(yè)中的應(yīng)用.pdf
- 大數(shù)據(jù)在金融行業(yè)中的應(yīng)用
- 大運(yùn)營宣貫 資料 v5
- 數(shù)據(jù)倉庫技術(shù)及其在稅務(wù)行業(yè)中的應(yīng)用.pdf
- 大數(shù)據(jù)技術(shù)及其在電站機(jī)組分析中的應(yīng)用.pdf
- 大數(shù)據(jù)在旅游行業(yè)中的應(yīng)用
- 淺析大數(shù)據(jù)在智慧城市中的應(yīng)用
- 大數(shù)據(jù)在人工智能中的應(yīng)用
- 大數(shù)據(jù)技術(shù)在飛機(jī)維修中的應(yīng)用
- 大數(shù)據(jù)技術(shù)在飛機(jī)維修中的應(yīng)用
- catia v5 逆向工程車燈案例
評論
0/150
提交評論