機器學(xué)習(xí)與數(shù)據(jù)挖掘-大眼睛實驗室_第1頁
已閱讀1頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、機器學(xué)習(xí)的困惑與歷史的啟示,王玨,第九屆機器學(xué)習(xí)及其應(yīng)用研討會2011年11月,清華大學(xué),自然模型,,[采樣],樣本集,,模型,[算法],,,[交叉驗證],假設(shè)iid,統(tǒng)計機器學(xué)習(xí)的麻煩,?????,,,[設(shè)計實驗],,,問題:模型是自然模型嗎?,統(tǒng)計機器學(xué)習(xí),如果數(shù)據(jù)不充分,在大變量集合下,如何設(shè)計實驗,獲得新數(shù)據(jù)。,統(tǒng)計機器學(xué)習(xí)的困難:實驗設(shè)計存在組合問題。iid成為與自然模型無關(guān)的假設(shè)!,特殊函數(shù)的逼近,社會的需

2、求,生物、網(wǎng)絡(luò)、金融、經(jīng)濟和安全等眾多領(lǐng)域,大變量集合的海量數(shù)據(jù)不斷涌出,社會迫切需要分析與處理這些數(shù)據(jù)的有效理論、方法與技術(shù)。,尋找分析與處理大變量集合海量數(shù)據(jù)的新理念、理論、方法與技術(shù)成為當(dāng)前迫切的任務(wù)。,歷史的故事,線性感知機,基于最小二乘的Rosenblatt的感知機(1956),其本質(zhì)是多變量空間上的平均(回歸)。,1902年,James的神經(jīng)元相互連接1943年,McCulloch和Pitts的神經(jīng)元工作方式1949年,

3、Hebb的學(xué)習(xí)律。,,貢獻是:多變量回歸的計算方法(神經(jīng)網(wǎng)絡(luò))。,基函數(shù):L = ?1D + ?2I + ?3G + ?4S設(shè)計算法,確定?,獲得模型,疑問是:只能解決線性問題,不能滿足實際的需要。埋下被批評的口實。,20世紀(jì)70年代面臨的選擇,統(tǒng)計優(yōu)化(平均):線性感知機統(tǒng)計模式識別,復(fù)雜信息系統(tǒng)(結(jié)構(gòu)):專家系統(tǒng)句法模式識別,選擇,非線性問題計算效率,,,專家系統(tǒng)合理復(fù)雜問題求解實現(xiàn)智能系統(tǒng)的理想,,,Duda a

4、nd Hart[73],從Bayes判別(分類),引入損失函數(shù),變?yōu)檎齽t化問題,If [D=0]?[G=A] then[L=0]If [I=0]?[G=A] then[L=0]If [D=1]?[I=1]?[G=A] then [L=1],AI,1969年,M.Minsky發(fā)表顛覆性的報告, “Perceptron”。表象是以XOR問題向以平均為基礎(chǔ)的感知機發(fā)難,本質(zhì)是試圖以結(jié)構(gòu)方法代替平均。全書使用拓撲作為工具。,1956年,

5、以復(fù)雜信息處理為契機,提出AI。其動機有二:其一,發(fā)展處理符號的方法,其二,處理非線性問題。,,過分強調(diào)獨立性,使得描述任何一個問題,需要窮舉出所有可能。80年代,耗資巨大的CYC“失敗”了。,需要統(tǒng)計方法成為共識。,20世紀(jì)80年代面臨的選擇,概率圖模型(Bayes學(xué)派):Markov隨機場Bayes網(wǎng),人工神經(jīng)網(wǎng)絡(luò)(頻率學(xué)派):BP統(tǒng)計機器學(xué)習(xí),選擇,結(jié)構(gòu)學(xué)習(xí)的困難先驗的結(jié)構(gòu)先驗概率分布推斷是NPC,,,字符識別,網(wǎng)絡(luò)

6、數(shù)據(jù)建模誤差界指導(dǎo)算法設(shè)計算法基于線性感知機無需先驗知識,無推斷考慮泛化為核心,,,Gibbs[1902], Wright[1935]Clifford[1971]Pearl[1988,89],統(tǒng)計機器學(xué)習(xí),1991年,Vapnik借用在AI中的PAC,給出基于iid的誤差界,基于PAC的統(tǒng)計開始成為主流,1986年, Remulhart發(fā)表PDP報告,包含非線性BP算法,解決XOR,逼近非線性函數(shù)。學(xué)術(shù)價值不大,人們開始重新

7、嘗試“平均”方法。,從ANN到SML,發(fā)展得力于對字符識別的成功,神經(jīng)網(wǎng)絡(luò)?基于PAC的機器學(xué)習(xí)?基于統(tǒng)計學(xué)的機器學(xué)習(xí),貢獻: (1)基于iid的誤差界指導(dǎo)算法設(shè)計,(2)算法設(shè)計返回感知機,線性算法,尋找線性空間(核映射)。,基于PAC理論,誤差界以1-?概率成立。這個參數(shù)在泛化意義下的解釋:理想,?應(yīng)該趨于0,但是,誤差界將趨于無窮,成為平凡界。,新世紀(jì)開始,統(tǒng)計學(xué)家加入SML,完全放棄PAC(Hastie)。,維數(shù)災(zāi)難,高維空間上

8、的統(tǒng)計理論,多重積分是麻煩,補充“合適”樣本是麻煩?!巴植肌敝荒芡A粼诩僭O(shè)上,無法實施。,在高維空間(成百上千)建模,最大的危險就是空間大的程度使得再多的樣本,在這個空間上也是稀疏的。,,由于困難具有本質(zhì)性,平均遇到大麻煩!,概率圖模型,將平均放在局部,避免了維數(shù)災(zāi)問題,同時保證了泛化和模型的可解釋性,關(guān)鍵是結(jié)構(gòu),將局部的平均構(gòu)造起來。,基于平均的研究已經(jīng)過去20余年,2009年,Koller出版巨著(近1200頁),概率圖模型。,,

9、結(jié)構(gòu)(全局) + 平均(局部),,將問題考慮為求解Bayes問題,一、表示 二、推斷 三、學(xué)習(xí),概率圖模型的三個要素,表示---I-map,P(I,D,G,L,S)=,P(I),P(D | I),P(G | I, D),P(L | I, D, G),P(S | I, D, G, L),P(D, I)=P(D)P(I),P(L|G),P(S|I),,,,,,,P(D),P(L, I|G)

10、=P(L|G)P(I|G),I與D相互獨立,L只與G有關(guān),與其他獨立,S只與I有關(guān),與其他獨立,P(I),P(G|I,D),D?I,L ? I,L ? D,S ? D,S ? G,S ? L,I-map={,},P(L, D|G)=P(L|G)P(D|G),求解Bayes問題的策略,使用Markov網(wǎng)表示Bayes問題。,(1)連接的節(jié)點保持連接。(2)X與Y有共同子孫,X與Y連接。,由于Bayes網(wǎng)可以簡單地轉(zhuǎn)化為Markov網(wǎng),因此

11、,在統(tǒng)計上,這個方法可以歸入Bayes范疇,Markov網(wǎng)成為求解Bayes問題的一個方法。,求解Bayes問題有兩個途徑:(1)直接求解,困難;(2)變換為Markov網(wǎng),使用優(yōu)化方法求解。(與Duda & Hart的思考一致)。,推斷---Bayes問題,推斷,概率查詢(Y邊緣):根據(jù)給定圖,計算P(Y | E = e)。在證據(jù)E=e條件下,Y出現(xiàn)的概率(邊緣概率)。,(1)根據(jù)給定BN,計算聯(lián)合分布:P(?) = ? P(

12、Xi | PaXi),(2)計算在E下變量Y的邊緣分布:P(Y | E) = ?X??-{Y}-EP(?),??計算是NPC問題(或多重積分,Bayes問題)。,求解Bayes問題的兩條路線(Duda(1973), Koller(2009)):,(1)直接求解:動態(tài)規(guī)劃、Clique樹,蒙特卡洛等。,(2)變分求解:設(shè)定目標(biāo)函數(shù)(損失),化為正則化問題。,學(xué)習(xí),假設(shè):給定結(jié)構(gòu)且樣本完整(所有變量被賦值)。任務(wù):學(xué)習(xí)參數(shù),參數(shù)估計。CP

13、D方法:(1)最大似然估計, (2)Bayes預(yù)測,假設(shè):結(jié)構(gòu)未知,但是,樣本完整。任務(wù):學(xué)習(xí)結(jié)構(gòu)和參數(shù)。考慮一個可能結(jié)構(gòu)的假設(shè)空間,結(jié)構(gòu)選擇變?yōu)閮?yōu)化問題。,假設(shè):樣本不完整,或某些變量未知。任務(wù):發(fā)現(xiàn)非顯現(xiàn)表現(xiàn)的變量,知識發(fā)現(xiàn)。,學(xué)習(xí)結(jié)構(gòu)的兩種策略,D,A,C,B,E,假設(shè)空間:對結(jié)構(gòu),就是變量連接的全組合。,學(xué)習(xí)結(jié)構(gòu):根據(jù)某種準(zhǔn)則,求出I-map,準(zhǔn)則:對某個結(jié)構(gòu)的評價---評分。,I(G)={A ? B},I(G)={A

14、? C},I(G)={A ? E},I(G)={A ? E,B ? E, C ? D, A ? C},目標(biāo):從假設(shè)空間中選擇似然最大的模型(結(jié)構(gòu)和參數(shù)),更為重要的是:通過知識庫建立結(jié)構(gòu)(或減小假設(shè)空間)。,歷史進程---20年河?xùn)|,20年河西?,1986-今天平均(數(shù)值計算)統(tǒng)計機器學(xué)習(xí),1943-1969平均(數(shù)值計算)感知機,2000-今后平均+結(jié)構(gòu)?概率圖模型?,1956-1986結(jié)構(gòu)(符號計算)人工智能,,M.

15、 Minsky等 Perceptrons: An introduction to computational geometry. 1969,D. Rumelhart等, Parallel Distributed Processing, 1986 V. Vapnik, The nature of statistical learning theory, 1995T.Hastie等, The Elements of Statistic

16、al Learning, 2003,D. Koller等Probabilistic Graphical Models: Principles and Techniques, 2009,,,總結(jié):我們的糾結(jié),統(tǒng)計機器學(xué)習(xí)以“泛化”為核心。,泛化:大量不確定觀察的平均是確定的,排中。iid,難以割舍:,(1)大量實際問題需要建立的模型是可泛化的;,(2)泛化使得建立的模型是實際問題有依據(jù)的近似;,(3)不知什么新的標(biāo)準(zhǔn)可以代替泛化。,Ko

17、ller這本書并沒有以泛化為核心,她的宗旨與AI相似。,前途:“預(yù)測”與“描述”,預(yù)測與描述是數(shù)據(jù)挖掘提出的兩個任務(wù),但是,數(shù)據(jù)挖掘的描述任務(wù)一直開展不好(啤酒和尿布)。被嘲笑!,圖模型既可以消除噪音且表示緊湊(相對AI的窮舉),還可以對模型的各個部分可解釋。前者是預(yù)測(泛化),后者是描述(發(fā)現(xiàn))。,金融和生物等領(lǐng)域,計算機科學(xué)有兩個策略:其一,代替領(lǐng)域?qū)<?從數(shù)據(jù)建立可靠(泛化)的模型),其二,為領(lǐng)域提供工具,簡化專家的工作(知識發(fā)現(xiàn)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論