大數(shù)據(jù)的研究方法及可能應用—王磊

上傳人：奔*** IP屬地：河北更新時間：2024-03-02 格式：doc 頁數(shù)：16 大小：92.00KB 人氣指數(shù)：12 舉報 版權申訴

已閱讀1頁，還剩15頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內容提供方，若內容存在侵權，請進行舉報或認領

文檔簡介

1、　　大數(shù)據(jù)的研究方法及可能應用　　王磊　　【摘要】：如今，“大數(shù)據(jù)”已經(jīng)成為了一個十分熱門的詞匯，新聞媒體對其進行長篇累牘的報道，與之相關的學術文章數(shù)量激增，大數(shù)據(jù)圖書也受到了極力的追捧。其實，隨著以云計算、移動互聯(lián)、智能化為特征的信息社會的深入發(fā)展，人類儲存的數(shù)據(jù)總量在不斷增大，數(shù)據(jù)增長的速度

2、也在持續(xù)的加快中。維克托?邁爾?舍恩伯格也曾說過：“世界的本質是數(shù)據(jù)，大數(shù)據(jù)將開啟一次重大的時代轉型。”社會生活的方方面面和我們認識世界的方式都受到了大數(shù)據(jù)帶來的沖擊，但是，對于大數(shù)據(jù)的認知和應用還有許多值得我們探索的地方。　　【關鍵詞】：大數(shù)據(jù)、數(shù)據(jù)挖掘、貝葉斯分類、圖模型、協(xié)同推薦、客戶價值、社會網(wǎng)絡、文本挖掘　　關于大數(shù)據(jù)<

3、/b>　　數(shù)據(jù)的海洋　　20世紀90年代后期，以信息技術、計算機技術、網(wǎng)絡技術等為代表的高新技術快速發(fā)展，以此為標志，人類社會正式邁入數(shù)字時代?，F(xiàn)在，伴隨著各種各樣的智能設備和輕巧靈便的可穿戴計算設備的普及，我們的行為、地理位置、收入與支出、身體生理狀況等衣食住行的方方面面都成為了可以被記錄和分析的數(shù)據(jù)。數(shù)據(jù)量

4、也就由此在不斷增大，而且，數(shù)據(jù)的種類和形式也在持續(xù)的更新。可以說，我們的生活已經(jīng)被日益增長的數(shù)據(jù)所充斥。　　事實上，各行各業(yè)都先后受到了數(shù)據(jù)增長帶來的沖擊。在天文學領域，2000年美國的斯隆數(shù)字巡天（Sloan Digital Sky Survey）項目啟動，位于美國新墨西哥州的大型天文望遠鏡在短短幾周內收集到的數(shù)據(jù)已經(jīng)比天文學歷史上總共收集到的數(shù)據(jù)還要多。到了2010年，天文望遠鏡收集到的數(shù)據(jù)

5、總量已經(jīng)高達1.4×2^42字節(jié)。在生物學領域，2003年人類第一次破譯人體基因密碼，全世界的優(yōu)秀科學家們辛苦工作了十年才完成了30億對堿基對的排序。而到了現(xiàn)在，世界范圍內的基因儀每15分鐘就可以完成相同的工作。在金融領域，美國股市每天的成交量高達70億股，更令人驚訝的是，其中三分之二的交易都是由建立在數(shù)學模型和算法之上的計算機程序自動完成的。在互聯(lián)網(wǎng)領域，F(xiàn)acebook這個創(chuàng)立時間不足十年的公司，每天更新的照片量超過100

6、0萬張，每天人們在網(wǎng)站上點擊“喜歡（Like）”按鈕或者寫評論大約有三十億次，這就為Facebook公司挖掘用戶喜好提供了大量的數(shù)據(jù)線索。[1] 總之，在各個領域都出現(xiàn)了爆發(fā)式增長的數(shù)據(jù)。這種增長的速度超過了我們創(chuàng)造任何一種機器的速度，甚至超過了我們的想象。　　那么，我們周圍究竟有多少數(shù)據(jù)呢？這些數(shù)據(jù)增長的速度又有多快呢？根據(jù)南加利福尼亞大學的統(tǒng)計學家馬丁·希爾伯特（Martin Hi

7、lbert）的估算，在2007年人類大約存儲了超過300艾字節(jié)（EB）的數(shù)據(jù)。[2] 在這里，1艾字節(jié)（EB）等于2^60字節(jié)（B）。這是個什么概念呢？一部完整的電影總可以被壓縮為1個吉字節(jié)（GB）的大小，而1個艾字節(jié)（EB）相當于10億吉字節(jié)（GB），是一個非常巨大的單位。這就是說，2007年人類儲存的數(shù)據(jù)總量超過了3000億部電影的數(shù)據(jù)量。如果我們一天看一部這樣的電影，需要近10億年的時間才能看完！這還不是最為龐大的數(shù)字，2010年

8、全球數(shù)據(jù)總量約為1.8澤字節(jié)（ZB），預計2020年全球數(shù)據(jù)總量將達到40澤字節(jié)（ZB）的規(guī)模。[3] 1個澤字節(jié)（ZB）是1024艾字節(jié)（EB），是比艾字節(jié)（EB）更為巨大的單位。由此可見，人類現(xiàn)在創(chuàng)造的數(shù)據(jù)總量是相當龐大的。不僅如此，人類存儲數(shù)據(jù)的信息量的增長速度比世界經(jīng)濟的增長速度快4倍，而計算機數(shù)據(jù)處理能力的增長速度則比世界經(jīng)濟的增長速度快9倍。[4] 我們真的是被數(shù)據(jù)的海洋淹沒了。&

9、lt;b>　　大數(shù)據(jù)的概念及特征　　如此巨大和快速增長的數(shù)據(jù)量催生了大數(shù)據(jù)（Big Data）概念的產(chǎn)生。大數(shù)據(jù)，是指無法在可承受的時間范圍內用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合。[5] 從這個概念上看，大數(shù)據(jù)必然不能通過單臺計算機進行處理，也不能使用傳統(tǒng)的方法進行分析，必須依托于云計算這一先進的技術。同時，大數(shù)據(jù)具有4個基本特征。第一，數(shù)據(jù)體量巨大。前文也已提

10、及，現(xiàn)在數(shù)據(jù)總量已經(jīng)達到EB級別，甚至達到了ZB級別。第二，數(shù)據(jù)類型繁多，來源廣泛。各種各樣的網(wǎng)絡文章、音頻資料、視頻資料、圖片資料、地理位置信息等等都是數(shù)據(jù)的不同類型與來源。第三，價值密度低，商業(yè)價值高。體量如此巨大的數(shù)據(jù)不可能全部都是有用的信息，而這極少量的信息蘊含的價值往往是巨大的。以視頻資料為例，公安機關在偵破刑事案件時通常需要調取案發(fā)現(xiàn)場的監(jiān)控視頻。而在連續(xù)不間斷的監(jiān)控過程中，有用的數(shù)據(jù)可能僅僅只有一兩秒，而有時恰恰是這一兩秒

11、的數(shù)據(jù)就能幫助公安機關發(fā)現(xiàn)破案的蛛絲馬跡。第四，增長速度快。正如前文所說，現(xiàn)如今數(shù)據(jù)增長的速度遠遠超過了世界經(jīng)濟增長的速度，而且這一速度還在不停地加快中。這就是所謂的大數(shù)據(jù)4V特征，即Volume（大量）、Velocity（　　大數(shù)據(jù)的意義　　、公共衛(wèi)生變革

12、　　2009年，甲型H1N1流感病毒爆發(fā)，牽動了全世界人民的心。與以往流感爆發(fā)的疫情不同，在這次疫情中，谷歌公司發(fā)布的數(shù)據(jù)代替習慣性滯后的官方數(shù)據(jù)成為了一個更有效、更及時的指示標，公共衛(wèi)生機構的官員從谷歌公司獲得了非常有價值的數(shù)據(jù)信息。實際上，谷歌公司獲取疫情數(shù)據(jù)的方法是建立在大數(shù)據(jù)的基礎之上的。　　在如今的互聯(lián)網(wǎng)時代，很多人在身體不適時，總會首先在網(wǎng)絡上搜索與之相關的詞條再

13、決定是否去看醫(yī)生。例如，如果我們出現(xiàn)咳嗽和發(fā)熱的癥狀，或許我們會搜索“哪些是治療咳嗽和發(fā)熱的藥物”這種詞條。于是，這種特殊的檢索詞條就會流露出流感侵襲的信息。而作為全球最大的搜索引擎公司，谷歌公司每天都會收到超過30億條的搜索指令，而且，谷歌公司保存了多年來的全部搜索記錄。以此為基礎，谷歌公司把疫情蔓延時5000萬條美國人最頻繁檢索的詞條和美國疾控中心在2003年至2008年間季節(jié)性流感傳播時期的數(shù)據(jù)進行了比較，如此這般分析人們的搜索記

14、錄就可判斷這些人是否感染了流感病毒。　　于是，谷歌公司通過觀察人們在網(wǎng)絡上的搜索記錄成功預測了流感病毒的傳播，而且不僅僅是美國范圍內的傳播，可以精確到特定的地區(qū)和州。不僅如此，谷歌公司的判斷十分及時，不會像美國疾控中心那樣在流感爆發(fā)一兩周之后才可以做出判斷。　　谷歌公司的這種方法以前是一直被忽略的，也是一種前所未有的方式，這就是“通過對海量數(shù)據(jù)進行分析，

15、獲得有巨大價值的產(chǎn)品和服務，或深刻的洞見”。[7] 擁有如此先進的統(tǒng)計技術和龐大的數(shù)據(jù)儲備，我們有理由相信下一次流感來襲的時候，世界將會擁有一種更好的預測工具來預防流感的傳播。　　、商業(yè)變革　　大數(shù)據(jù)不僅改變了公共衛(wèi)生領域，商業(yè)領域也因為大數(shù)據(jù)發(fā)生了深刻的變化。　　以購買飛機

16、篇為例，美國計算機專家奧倫·埃奇奧尼（Oren Etzioni）專門開發(fā)了一個系統(tǒng)，用來預測當前的機票價格在未來的一段時間內是會上升還是下降。也就是說，這個系統(tǒng)需要分析所有特定航線機票的銷售價格并確定機票價格與提前購買天數(shù)的關系。如果一張機票的平均價格呈下降趨勢，系統(tǒng)就會幫助用戶做出稍后再購票的明智選擇。反過來，如果一張機票的平均價格呈上漲趨勢，系統(tǒng)就會提醒用戶立刻購買該機票。　　埃奇

17、奧尼的預測系統(tǒng)是十分成功的，幫助許多乘客節(jié)省了一筆不小的開支。當然，這個預測系統(tǒng)也是在大數(shù)據(jù)的基礎上建立的，所以不可避免的是系統(tǒng)的運轉需要海量數(shù)據(jù)的支持。埃奇奧尼找到了一個商業(yè)機會預訂機票價格的數(shù)據(jù)庫，而系統(tǒng)的預測結果是根據(jù)美國商業(yè)航空產(chǎn)業(yè)中，每一條航線上每一架飛機內的每一個座位一年內的綜合票價記錄而得出的。　　基于這個機票價格預測系統(tǒng)，埃奇奧尼創(chuàng)立了一家大數(shù)據(jù)科技創(chuàng)業(yè)公司，名為Farecast

18、。到目前為止，F(xiàn)arecast公司已經(jīng)擁有了多達2000億條飛行數(shù)據(jù)記錄，預測的準確度高達75%，而且使用Farecast票價預測工具購買機票的旅客，平均每張機票可節(jié)省50美元。[8] Farecast公司是大數(shù)據(jù)公司的一個縮影，也代表了當今世界發(fā)展的趨勢。計算機的處理能力和存儲能力的大幅提升、數(shù)據(jù)分析能力的突破為大數(shù)據(jù)公司的出現(xiàn)奠定了基礎。　　、思維變革&

19、lt;/p>　　在大數(shù)據(jù)誕生以前，人們通常認為數(shù)據(jù)是靜態(tài)的，而且一旦完成了收集數(shù)據(jù)的目的之后，數(shù)據(jù)就完全沒有用處了。而到了現(xiàn)在，大數(shù)據(jù)的出現(xiàn)改變了人們的認知，顛覆了人們利用數(shù)據(jù)的理念。數(shù)據(jù)已經(jīng)成為了“一種商業(yè)資本，一項重要的經(jīng)濟投入，可以創(chuàng)造新的經(jīng)濟利益”。而且爆炸式增長的數(shù)據(jù)由量變引發(fā)了質變，大數(shù)據(jù)成為了“人們獲得新的認知、創(chuàng)造新的價值的源泉”；成為了“改變市場，改進組織機構，改善政府與公民關系的方法”。大

20、數(shù)據(jù)時代已經(jīng)來臨，大數(shù)據(jù)對我們的生活，對整個世界都提出了挑戰(zhàn)，而這僅僅只是一個開始。面對海量的數(shù)據(jù)，我們不必關心數(shù)據(jù)間的因果關系，而應該更加注重相關關系。也就是說，我們只需要知道“是什么”，而不需要知道“為什么”。這是一個極為重大的改變，在不久的將來，或許我們的認知方式和理解世界的基礎都將因為大數(shù)據(jù)而受到不同程度的沖擊。　　大數(shù)據(jù)的研究與分析方法<

21、b>　　數(shù)據(jù)挖掘　　、數(shù)據(jù)挖掘的內涵與基本特征　　1995年，法耶茲（Fayyad）在知識發(fā)現(xiàn)會議上第一次提出了數(shù)據(jù)挖掘（Data Mining）的概念，法耶茲認為數(shù)據(jù)挖掘是“一個自動或半自動化的從大量數(shù)據(jù)中發(fā)現(xiàn)有效的、有意義的、潛在有用的、易于理解的數(shù)據(jù)模式的復雜過程”。　　法耶茲的定

22、義突出了數(shù)據(jù)挖掘的工程特征，闡釋了數(shù)據(jù)挖掘是一種用于在海量數(shù)據(jù)中發(fā)現(xiàn)其中存在的有價值的數(shù)據(jù)模式的分析機制。其實，在技術的層面上，數(shù)據(jù)挖掘是網(wǎng)絡時代必然的技術熱點。在電子商務和互聯(lián)網(wǎng)商業(yè)中，數(shù)據(jù)挖掘有著極為重大的應用價值。　　數(shù)據(jù)挖掘就是解決各種實際問題的數(shù)據(jù)分析過程，而在通過大量數(shù)據(jù)解決實際問題的過程中，復雜問題的解決往往不是一兩個數(shù)據(jù)模型的簡單套用就可以完成的，經(jīng)常需要很多步驟綜合構成一個系統(tǒng)

23、性的解決方案，需要多個模型協(xié)作完成。所以，對于數(shù)據(jù)挖掘來說，選擇模型可能比應用模型更重要。而且，數(shù)據(jù)挖掘不僅僅是對數(shù)據(jù)的概括和歸納，更是數(shù)據(jù)中的復雜關系的發(fā)現(xiàn)過程。　　、數(shù)據(jù)挖掘的產(chǎn)生　　數(shù)據(jù)挖掘技術的產(chǎn)生是一個逐漸演變的過程。在數(shù)據(jù)處理初期，人們希望通過某些方法和技術實現(xiàn)自動決策，當時機器學習受到了人們的廣泛關注。

24、機器學習就是將人們已知的能夠成功解決某一類問題的算法輸入計算機，計算機便可以代替人類進行決策。[9] 對于某一類特定的問題，機器學習可以總結出相應的解決規(guī)則，并且這種解決規(guī)則具有一定的通用性。20世紀70年代，神經(jīng)網(wǎng)絡技術正式形成并逐漸發(fā)展，隨之非線性復雜結構應用到復雜數(shù)據(jù)關系的模型建立中。到了80年代，知識工程取代機器學習成為了人們關注的焦點。知識工程不同于機器學習，它是直接給計算機輸入已被代碼化的解決規(guī)則，計算機通過則利用這些規(guī)則來

25、解決某些問題。[10] 80年代末期，全新的神經(jīng)網(wǎng)絡理論建立，在其指導下，人們重新回到機器學習的方法上，并利用機器學習處理大型商業(yè)數(shù)據(jù)庫。在此背景下，一個新的術語“數(shù)據(jù)庫中的知識發(fā)現(xiàn)”誕生了，簡稱KDD（Knowledge Discover in Database）。KDD概括了所有從源數(shù)據(jù)中發(fā)掘模式或聯(lián)系的方法，人們也逐漸接受了數(shù)據(jù)挖掘的概念與過程。　　、數(shù)據(jù)挖掘的功能&l

26、t;/b>　　數(shù)據(jù)挖掘的核心任務是探索與建立數(shù)據(jù)的特征和數(shù)據(jù)與數(shù)據(jù)之間的關系。根據(jù)將要探索與建立的數(shù)據(jù)關系是否有目標，又可將數(shù)據(jù)挖掘的功能分為有指導的學習（Supervised Learning）和無指導的學習（Unsupervised Learning）兩大類。其中，有指導的學習是指對預設目標的概念學習和建模，主要由分類、估計和預測三方面的功能組成。[11] 而無指導的學習是指尋找和刻畫

27、數(shù)據(jù)的概念結構，主要由關聯(lián)關系發(fā)現(xiàn)、聚類分析、可視化三方面的功能組成。[12]　　分類（Classification）：　　分類主要是用可能的特征變量通過對大量數(shù)據(jù)的分析和比較提煉出可辨識類別的顯著不同的結構特征，即“獲取一個概念區(qū)別于另一個概念的構成和表示”。具體來說，通過分析一部分數(shù)據(jù)庫中的數(shù)據(jù)，可以將數(shù)據(jù)分成不同的類別。再為每個類別建立分類分析模型

28、，然后利用這些分類分析模型對數(shù)據(jù)庫中的其他數(shù)據(jù)記錄進行分類。例如，對于信用卡申請者可以分為高、中、低三個類別。　　估計（Estimation）：　　數(shù)據(jù)的估計是指描述由數(shù)據(jù)表達的未知概念的模型，并給出模型參數(shù)的估計方法并進行數(shù)值計算，或者得到模型的可靠性范圍等。估計與分類類似，不同之處在于，分類描述的是離散型數(shù)據(jù)變量的模型，而估計處理連續(xù)型數(shù)據(jù)變量的模型

29、。一般來說，估計可以作為分類的前一步工作。給定一些輸入數(shù)據(jù)，通過估計，得到未知的連續(xù)變量的值，然后，根據(jù)預先設定的范圍，進行分類。例如，可根據(jù)購買模式估計家庭的年收入，再根據(jù)年收入對不同的家庭進行分類。　　預測（Prediction）：　　預測是指對尚未發(fā)生的、目前仍然不確定的事件或事物做出預先估計或表述，并通過對數(shù)據(jù)的處理與分析推測出事件或事物未來的發(fā)

30、展趨勢。分類和估計都可用于預測，其中分類強調不同規(guī)律的差異解釋，估計則強調對未知規(guī)律通過數(shù)據(jù)表達的機制研究。但是，與分類和估計不同的是，預測更加注重數(shù)據(jù)的規(guī)律對未來的影響趨勢。　　關聯(lián)關系發(fā)現(xiàn)（Association Rules）：　　關聯(lián)關系發(fā)現(xiàn)則試圖發(fā)現(xiàn)和提取研究對象之間通過數(shù)據(jù)表達的相互關系，其中的組合關聯(lián)規(guī)則是要確定哪些事物會一起出現(xiàn)或發(fā)生。例如

31、，某超市中的客戶通常在購買A商品的同時會購買B商品。　　聚類分析（Clustering）：　　聚類分析主要提煉數(shù)據(jù)的相似性分組結構。聚類的目的是將相似的數(shù)據(jù)聚合在一起，而差異較大的數(shù)據(jù)分在不同的類中。在聚類中，沒有事先確定好的組別，也沒有樣本，這與分類有著很大的區(qū)別。而且數(shù)據(jù)按照特征的相似性聚集在各自的類別中，對于數(shù)據(jù)的分析不僅要完成相似個體的聚合與分組

32、，也要提煉出各個分組和類別內的數(shù)據(jù)中蘊含的意義。例如，一些特定癥狀的聚集可能代表了一種特定的疾病。　　可視化（Visualization）：　　數(shù)據(jù)的可視化更加強調數(shù)據(jù)形象的展現(xiàn)方式。數(shù)據(jù)挖掘的首要目標往往是要深入理解復雜數(shù)據(jù)庫的內容，而在開始時對數(shù)據(jù)準確的描述就可以幫助我們找到進一步解決問題的途徑。例如，通過Yonghong Z-Suite等工具進行數(shù)

33、據(jù)的展現(xiàn)、分析和鉆取，將數(shù)據(jù)挖掘的分析結果更形象、更深刻的展現(xiàn)出來。[13]　　、數(shù)據(jù)挖掘的流程　　①問題識別：　　數(shù)據(jù)挖掘的目標就是要通過對數(shù)據(jù)的分析發(fā)現(xiàn)解決問題的方法，所以在問題識別階段，首先要明確系統(tǒng)和組織中的關鍵問題。我們知道，大

34、數(shù)據(jù)本身十分復雜，與之相關的實際問題也就極為復雜，在數(shù)據(jù)挖掘過程中必須牢牢抓住核心問題，把握問題的邊界和本質，才能確定有效地數(shù)據(jù)挖掘方案。　?、跀?shù)據(jù)理解：　　在數(shù)據(jù)挖掘過程中，顯然確認研究的問題和現(xiàn)有的數(shù)據(jù)之間是否匹配是十分重要的。數(shù)據(jù)理解主要包含對數(shù)據(jù)價值的理解和對數(shù)據(jù)質量的理解兩方面。我們知道，數(shù)據(jù)是一種特殊的資

35、源，與物質產(chǎn)品相比，數(shù)據(jù)不可消耗。數(shù)據(jù)的價值存在于不同的系統(tǒng)不同的用戶之間的傳遞和共享，而且在復制和更新的過程中，數(shù)據(jù)的價值可以得到提升。同時，數(shù)據(jù)也是極為脆弱的，也容易遭到破壞。數(shù)據(jù)的不一致性、重復太多、陳舊過時、不穩(wěn)定等都是數(shù)據(jù)常見的質量問題。當然，在數(shù)據(jù)理解過程中，我們也應了解數(shù)據(jù)格式和數(shù)據(jù)類型，了解數(shù)據(jù)的獲取方式和異常數(shù)據(jù)的存在。　?、蹟?shù)據(jù)準備：&l

36、t;/p>　　在對數(shù)據(jù)進行分析之前，首先需要將數(shù)據(jù)匯集到一起，形成數(shù)據(jù)庫。但是，在匯總數(shù)據(jù)時，多余數(shù)據(jù)以及數(shù)據(jù)格式與含義不一致的現(xiàn)象十分普遍。于是，將這些存在于不同環(huán)境中的或者存在于相對封閉的系統(tǒng)中的數(shù)據(jù)有機的結合在一起，實現(xiàn)數(shù)據(jù)資源的共享就是數(shù)據(jù)準備階段的關鍵環(huán)節(jié)和主要任務。　　用于數(shù)據(jù)準備的技術稱為ETL技術，“ETL”是英文Extract，Transform和L

37、oad三個單詞首字母的縮寫，分別表示抽取、轉換和裝載三方面的數(shù)據(jù)處理技術。數(shù)據(jù)抽取就是將數(shù)據(jù)按照數(shù)據(jù)挖掘的項目主題從各種原始的數(shù)據(jù)系統(tǒng)中讀取出來，這是數(shù)據(jù)挖掘所有工作的前提。然后進行數(shù)據(jù)轉換，根據(jù)預先設計好的規(guī)則將數(shù)據(jù)進行轉換，使得不同結構和格式的數(shù)據(jù)統(tǒng)一起來。最后是進行數(shù)據(jù)裝載，將完成轉換的數(shù)據(jù)導入到數(shù)據(jù)庫中，完成數(shù)據(jù)整合的過程。　　當然，匯集數(shù)據(jù)需要用到很多數(shù)據(jù)技術。對于復雜的數(shù)據(jù)格式，還需

38、要利用編程語言的強大功能來實現(xiàn)數(shù)據(jù)的集成，也可以使用一些工具軟件，例如SAS，SPSS，Ab Initio和PERL工具。　?、芙⒛Ｐ停?lt;/b>　　數(shù)據(jù)建模是數(shù)據(jù)挖掘流程中最核心的環(huán)節(jié)，使用機器學習算法或統(tǒng)計方法對大量的數(shù)據(jù)進行建模分析，從而獲得對數(shù)據(jù)系統(tǒng)最合適的模型。建立模型是一個反復的實驗過程，需要仔細考察不同的模型和

39、數(shù)據(jù)，以確定與待解決的問題最適合的數(shù)據(jù)模型。　　⑤模型評價：　　數(shù)據(jù)挖掘的模型評價包括功能性評價和服務性評價兩方面的內容。其中，功能性評價是指建立的模型對任務完成的質量，常見的有精準性評價和穩(wěn)定性評價。精準性評價主要衡量模型估計的準確性，而穩(wěn)健性評價是對模型的抗干擾性和適應性進行評測。功能性評價中常用的兩種方法是增益

40、圖法和ROC曲線法。除了技術性能的評價，服務的因素也不容忽視。　　⑥部署應用：　　數(shù)據(jù)模型建立并且經(jīng)過驗證之后，有兩種主要的途徑。第一種用途是提供給分析人員做參考，通過察看和分析這個模型之后提出行動方案建議。第二種用途是將此模型應用到不同的數(shù)據(jù)集合上。　　貝

41、葉斯分類　　貝葉斯分類（Bayes Classification）是統(tǒng)計學中的分類方法，其分析方法的特點是使用概率來表示所有形式的不確定性，學習和推理都要通過概率規(guī)則實現(xiàn)，[14] 即利用概率統(tǒng)計知識進行分類。貝葉斯分類在機器學習領域中具有十分重要的地位，在處理數(shù)據(jù)時它的作用也是十分強大的。　　在貝葉斯分類中，數(shù)據(jù)分類的問題轉化為了分

42、布的決策問題。貝葉斯分類也為分布的決策提供了兩種產(chǎn)生分布函數(shù)的方法。第一種是分布估計法，即根據(jù)損失函數(shù)、先驗分布和似然函數(shù)，通過后驗分布，由最優(yōu)決策產(chǎn)生分類函數(shù)。在樣本連續(xù)和數(shù)據(jù)維度不高的情況下，正態(tài)分布下的線性判別和二次判別等方法是兩個十分典型的方法。第二種是條件依賴關系估計法，針對數(shù)據(jù)變量是離散的而且維數(shù)較高的情況。如果變量之間存在少量的條件依賴關系，則利用條件依賴關系估計法進行分析可以獲得高質量的估計結果，這種方法還可以用于分析變

43、量之間的邏輯依賴關系。上面所說的兩種方法或可稱為樸素貝葉斯方法和貝葉斯網(wǎng)絡方法。[15]　　圖模型　　圖模型（Graphic Models）用于刻畫復雜數(shù)據(jù)系統(tǒng)中多個變量或不同的觀測數(shù)據(jù)之間地關系，是提取高維數(shù)據(jù)的結構信息的重要工具。圖模型的基本思想是通過揭示高維隨機變量的相互依存關系刻畫變量之間的條件獨立性。在統(tǒng)計

44、學中，圖模型實質上就是用節(jié)點表示隨機變量和用弧表示條件獨立假設的圖。[16] 目前，圖模型發(fā)展較快的主要有兩個分支，一個是基于似然函數(shù)的懲罰算法，另一類是基于回歸技術的算法。　　1）、Graphical LASSO算法　　Graphical LASSO算法是弗里德曼（Friedman）于2007年提出的，是在似然函數(shù)上增加懲罰算法進行圖模型估計的方法。這

45、種算法使用最速下降的方法，速度較快。　　2）、MB算法　　MB算法是一種典型的回歸算法。這種算法將圖模型視為是由每個頂點對其他頂點做鄰域選擇時所產(chǎn)生的鏈接圖的疊加。于是，在MB算法中，每個頂點所占的比例相同，保證了各個頂點可以選擇相同數(shù)量的與之連通的邊。MB算法實質上是從每個頂點最低鏈接需要的角度描述圖的一種方式。&

46、lt;/p>　　3）、SPACE算法　　SPACE算法是另一種典型的回歸算法。該算法將稀疏圖看成是對頂點實施不等權重影響導致的相對組合的一般形式。而其中的權重由一個頂點的輻射強度在所有頂點輻射強度分布中的位置決定，一個頂點的輻射強度是該頂點對其他頂點的偏相關系數(shù)之和，而輻射強度分布是所有頂點輻射強度的分布。如果一個頂點的輻射強度較大，則該頂點分配較大的權重，進一步可允

47、許該頂點選擇更多邊與之連通。反之，如果一個的輻射強度較小，則該頂點分配較小的權重，并限制該頂點選擇與更多邊連通。　　大數(shù)據(jù)的可能應用舉例　　客戶關系管理　　1）、協(xié)同推薦模型　　伴隨著互聯(lián)網(wǎng)和電子

48、商務的發(fā)展，數(shù)據(jù)及信息的體量已經(jīng)遠遠超出人們的處理能力。及時為客戶過濾不必要的項目是實現(xiàn)異構管理，有效利用網(wǎng)絡數(shù)據(jù)資源，提升整體數(shù)據(jù)處理性能的重要措施。推薦系統(tǒng)就是一門專門面向客戶的網(wǎng)絡數(shù)據(jù)過濾技術，并向客戶推薦適合的項目。系統(tǒng)的核心就是推薦算法，主要有以下三種：　　人口統(tǒng)計學的推薦（Demographic-based Recommendation）

49、即根據(jù)系統(tǒng)客戶的基本信息發(fā)現(xiàn)客戶的相關程度。具體方法是對所有客戶建立人口統(tǒng)計學（性別、年齡、職業(yè)等）的數(shù)據(jù)檔案。例如尋找與甲客戶的人口統(tǒng)計學特征相似的乙客戶，由于甲、乙客戶具有相同的人口統(tǒng)計學的特征，而認為甲、乙客戶具有較高的關聯(lián)度。于是，可將乙客戶偏好的項目推薦給甲客戶。這類推薦算法的優(yōu)點是適用于冷啟動問題，不足是推薦的精準度不高，因為僅僅在人口統(tǒng)計學的特征上給出推薦，而人口統(tǒng)計學的資料很難體現(xiàn)客戶在項目需求上的差異。</p&g

50、t;　　基于內容的推薦（Content-based Recommendation）　　即根據(jù)所推薦項目的元數(shù)據(jù)，發(fā)現(xiàn)項目或者數(shù)據(jù)內容的相關性。例如甲項目的類型是“戶外用品”，乙項目的類型也是“戶外用品”，這兩種項目具有相似性。如果某客戶對甲項目產(chǎn)生興趣，那么系統(tǒng)就會對其推薦乙項目。這種推薦算法需要對項目內的數(shù)據(jù)進行分析和建模，推薦的質量依賴于對項目描述的完整程度。一般應用中

51、觀察到的關鍵詞和標簽是描述項目元數(shù)據(jù)的簡單而有效的方法。不足之處在于項目相似度的分析僅僅取決于項目本身的特征，未涉及客戶個體差異對項目的態(tài)度。　　協(xié)同過濾的推薦（Collaborative Filtering Recommendation）　　與傳統(tǒng)的人口統(tǒng)計學和基于內容的過濾直接分析內容進行推薦不同，協(xié)同過濾分析用戶興趣，在用戶群中找到指定用戶的相似興

52、趣用戶，綜合這些相似用戶對某一信息的評價，形成系統(tǒng)對該指定用戶對此信息的喜好程度預測。協(xié)同過濾主要解決了傳統(tǒng)算法在數(shù)據(jù)的稀缺性和項目數(shù)量較多的情況下的推薦項目問題。協(xié)同過濾推薦系統(tǒng)處理的數(shù)據(jù)問題包含兩方面的變量——用戶和選擇條目，推薦的目標是預測用戶對某些位置條目的評價。1992年，戈德堡（Goldberg）實現(xiàn)了第一個協(xié)同過濾推薦系統(tǒng)，戈德堡利用辦公伙伴等與被推薦人有密切生活接觸的人進行相似性推薦。現(xiàn)在，協(xié)同過濾推薦在信息過濾和電子商

53、務行業(yè)得到了廣泛應用，包括推薦書籍、酒店、電影、商業(yè)網(wǎng)站等。例如AMAZON網(wǎng)上書店提供非常先進的個性化推薦功能，能為不同興趣愛好的用戶自動推薦盡量符合其興趣需要的書籍。具體來說， AMAZON網(wǎng)上書店使用協(xié)同過濾推薦算法對讀者曾經(jīng)購買過的書籍以及該讀者對其他書籍的評價進行分析后，將向讀者推薦他可能喜歡的新書。而且讀者的信息將被再次保存，這樣顧客下次再來時就能更容易的買到想要的書籍。[17]&l

54、t;b>　　2）、客戶價值模型　　客戶價值是衡量企業(yè)商業(yè)實力的重要標志，是發(fā)展客戶關系和提高市場競爭力的基礎。而隨著企業(yè)數(shù)據(jù)收集和分析系統(tǒng)越來越強大，預測、識別和開發(fā)一位客戶的終生價值的數(shù)據(jù)模型就稱為了一個十分重要的課題。　　與之相關的問題是怎樣用數(shù)據(jù)衡量客戶的價值。德懷爾（Dwyer）提出了一種系統(tǒng)模型計算客戶價值。德懷爾將客

55、戶流失預測引入到客戶價值分類模型中，并將客戶劃分為永久流失和暫時流失兩部分。伯杰（Berger）和納斯爾（Nasr）更進一步將客戶按照流失劃分為5類，并可以實現(xiàn)對每一類客戶價值的計算。而休斯（Hughes）提出了基于行為變量的客戶價值直接計算方法，這種方法使用3種指標——最近購買時間、購買頻次和購買金額來分析客戶的價值。以上三種指標是企業(yè)交易數(shù)據(jù)庫都可以提取的信息。　　社會網(wǎng)絡

56、分析　　社會是一個十分復雜的系統(tǒng)，社會中的成員通過特定的關系形成一些團體，這些團體的存在形式、組成機理和影響關系是社會學關注的焦點。社會網(wǎng)絡分析（Social Network Analysis）是觀察社會關系和社會結構的研究方法。社會網(wǎng)絡可以理解為社會群體之間的關系。　　社會網(wǎng)絡可分為兩類。一類是接觸型社會網(wǎng)絡，適用于比較封閉的系統(tǒng)，

57、具有總體數(shù)據(jù)量較小的特點，比如學校師生網(wǎng)絡、公司董事網(wǎng)絡等。另一類是通信類社會網(wǎng)絡，具有總體數(shù)據(jù)量較大，關系不固定等特點，比如手機電話網(wǎng)絡、微博、論壇等。接觸類社會網(wǎng)絡中群體的關系往往是預設的，而在通信類社會網(wǎng)絡中，使我們感興趣的常常不是預設的關系。但整體上說，這些關系都和網(wǎng)絡的功能有密切關系。　　1）、社群挖掘算法

58、　　網(wǎng)絡社群是指社會網(wǎng)絡中內部之間相互連接緊密，而與外部其他節(jié)點連接稀疏的一組節(jié)點。社會網(wǎng)絡的研究重點就是認識和揭示網(wǎng)絡特征，了解社群結構。目前，有大量的社群挖掘算法被提出。根據(jù)聚類的方式，社群挖掘算法大致上可以分為三類：層次聚類算法、最優(yōu)化算法、塊模型算法。　　層次聚類算法：　　層次聚類算法的特點是需要計算節(jié)點之間

59、的相似度。在得到了節(jié)點之間的相似度矩陣之后，就可利用常見的聚類算法對節(jié)點進行聚類。　　最優(yōu)化算法：　　最優(yōu)化算法通過對社群質量的最優(yōu)化達到社群挖掘的目的，比較常見的方法是基于模塊值的算法。模塊值為社會網(wǎng)絡中連接社團結構內部節(jié)點的邊所占的比例與另外一個隨機網(wǎng)絡中連接社團結構內部節(jié)點的邊所占比例的期望值相減得到的差值。這

60、個隨機網(wǎng)絡的構造方式為保持每個節(jié)點的社團屬性不變，節(jié)點間的邊根據(jù)節(jié)點的中心度隨機連接。　　塊模型算法：　　塊模型算法是通過假設社會網(wǎng)絡滿足某種統(tǒng)計分布，例如可假設在任意兩點之間的邊數(shù)服從泊松分布，進而通過極大似然方法的到網(wǎng)絡的社群結構。　　2）、模型評價&l

61、t;/b>　　模型的評價有很多方式，例如來源于信息理論的歸一互化信息（Normalized Mutual Information，NMI），數(shù)據(jù)挖掘與機器學習領域的校正隨機指數(shù)（Adjusted Rand Index）等，其中歸一互化信息在社群挖掘算法的評價中較為普遍。　　自然語言模型和文本挖掘　　早期的自

62、然語言處理系統(tǒng)主要依靠語言學家撰寫規(guī)則，機器編譯規(guī)則，這種方法在大量知識面前顯得既費時又費力，而且不能及時更新，各種語言之間彼此獨立，無法兼顧不同語言的特點。20世紀80年代后期，計算性能大幅提高，機器學習算法被引入到自然語言模型的處理中，這種方法采用大規(guī)模的訓練語料數(shù)據(jù)對模型的參數(shù)進行自動的學習，和之前的基于規(guī)則的方法相比，更具有穩(wěn)定性，已經(jīng)廣泛用于文本分類和機器學習等問題。如今，即便是語言學家也必須利用語料庫提供的證據(jù)和實例。例如，

63、夸克（Quirk）等編著的《英語語法大全》就利用了語料庫中的數(shù)據(jù)。　　數(shù)據(jù)統(tǒng)計語言模型的發(fā)展也刺激了文本挖掘的發(fā)展。文本挖掘是以計算語言學、數(shù)理統(tǒng)計分析為理論基礎，結合機器學習和信息檢索技術，從文本數(shù)據(jù)中發(fā)現(xiàn)和提取獨立于用戶信息需求的文本集中的隱含知識。　　一般來說，文本挖掘利用文本切分技術，抽取文本特征，并利用數(shù)據(jù)特征降維等技術將文本數(shù)據(jù)轉換為能夠描述

64、文本內容的結構化數(shù)據(jù),進一步可形成結構化模型表示樹，從中提取出穩(wěn)定結構，便可獲取其中的知識表示關系。目前，文本挖掘中的語言模型經(jīng)歷了4個發(fā)展階段：向量空間及統(tǒng)計語言模型、潛語義分析（LAS）、基于頻率的模型到主題模型的發(fā)展階段。[18]　　【參考文獻】：　　[1] （英）維克托·邁爾·舍恩伯格，肯

65、尼思·庫克耶. 大數(shù)據(jù)時代：生活、工作與思維的大變革. 周濤，盛楊燕譯. 浙江：浙江人民出版社，2012.　　[2] （英）維克托·邁爾·舍恩伯格，肯尼思·庫克耶. 大數(shù)據(jù)時代：生活、工作與思維的大變革. 周濤，盛楊燕譯. 浙江：浙江人民出版社，2012.　　[3] 王星等. 大數(shù)據(jù)分析：方法與應用. 北京：清華

66、大學出版社，2013.　　[4] （英）維克托·邁爾·舍恩伯格，肯尼思·庫克耶. 大數(shù)據(jù)時代：生活、工作與思維的大變革. 周濤，盛楊燕譯. 浙江：浙江人民出版社，2012.　　[5]http://www.bing.com/knows/search?q=%e5%a4%a7%e6%95%b0%e6%8d%ae&mkt=z

67、h-cn&FORM=BKACAI　　[6] 王星等. 大數(shù)據(jù)分析：方法與應用. 北京：清華大學出版社，2013.　　[7] （英）維克托·邁爾·舍恩伯格，肯尼思·庫克耶. 大數(shù)據(jù)時代：生活、工作與思維的大變革. 周濤，盛楊燕譯. 浙江：浙江人民出版社，2012.　　[8]

68、（英）維克托·邁爾·舍恩伯格，肯尼思·庫克耶. 大數(shù)據(jù)時代：生活、工作與思維的大變革. 周濤，盛楊燕譯. 浙江：浙江人民出版社，2012.　　[9] Ethem Alpaydim. 機器學習引論. 北京：機械工業(yè)出版社，2009.　　[10] 王星等. 大數(shù)據(jù)分析：方法與應用. 北京：清華大學出版社，2013.</p

69、>　　[11] 王星等. 大數(shù)據(jù)分析：方法與應用. 北京：清華大學出版社，2013.　　[12] 王星等. 大數(shù)據(jù)分析：方法與應用. 北京：清華大學出版社，2013.　　[13]http://baike.baidu.com/link?url=ukKbp64aCvRHvC-guknASzF9SAu8Nd1kkfknxxDbQ

70、88feeP6m3kqrQ6z93wZg0Og7BDmplJvUvsYcthLtIjKuq　　[14] http://baike.baidu.com/view/3810699.htm　　[15] 張連文，郭海鵬. 貝葉斯網(wǎng)絡引論. 北京：科學出版社，2006. 　　[16] http://blog.science

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內容本身不做任何修改或編輯，并不能對任何下載內容負責。
6. 下載文件中如有侵權或不適當內容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)的研究方法及可能應用—王磊

文檔簡介

溫馨提示

最新文檔

評論

免費下載