版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、機(jī)器人的學(xué)習(xí)研究進(jìn)展:深度學(xué)習(xí)及應(yīng)用,內(nèi) 容,1.深度學(xué)習(xí)概述 2.深度學(xué)習(xí)應(yīng)用研究,1.深度學(xué)習(xí)概述,1.1 概述1.2 背景1.3 人腦視覺機(jī)理1.4 關(guān)于特征1.5 深度學(xué)習(xí)的基本思想1.6 淺層學(xué)習(xí)(Shallow Learning)和深度學(xué)習(xí)(Deep Learning),1.深度學(xué)習(xí)概述,1.7 Deep learning與Neural Network1.8 Deep learning訓(xùn)練過程1.9 Dee
2、p Learning的常用模型或者方法,1.1 概述,Artificial Intelligence,也就是人工智能,就像長(zhǎng)生不老和星際漫游一樣,是人類最美好的夢(mèng)想之一。雖然計(jì)算機(jī)技術(shù)已經(jīng)取得了長(zhǎng)足的進(jìn)步,但是到目前為止,還沒有一臺(tái)電腦能產(chǎn)生“自我”的意識(shí)。的確如此,在人類和大量現(xiàn)成數(shù)據(jù)的幫助下,電腦可以表現(xiàn)的十分強(qiáng)大,但是離開了這兩者,它甚至都不能分辨一個(gè)喵星人和一個(gè)汪星人。,1.1 概述,圖靈(計(jì)算機(jī)和人工智能的鼻祖,分別對(duì)應(yīng)于
3、其著名的“圖靈機(jī)”和“圖靈測(cè)試”)在 1950 年的論文里,提出圖靈試驗(yàn)的設(shè)想,即,隔墻對(duì)話,你將不知道與你談話的,是人還是電腦。這無疑給計(jì)算機(jī),尤其是人工智能,預(yù)設(shè)了一個(gè)很高的期望值。但是半個(gè)世紀(jì)過去了,人工智能的進(jìn)展,遠(yuǎn)遠(yuǎn)沒有達(dá)到圖靈試驗(yàn)的標(biāo)準(zhǔn)。這不僅讓多年翹首以待的人們,心灰意冷,認(rèn)為人工智能是忽悠,相關(guān)領(lǐng)域是“偽科學(xué)”。,1.1 概述,但是自 2006 年以來,機(jī)器學(xué)習(xí)領(lǐng)域,取得了突破性的進(jìn)展。圖靈試驗(yàn),至少不是那么可望而不
4、可及了。至于技術(shù)手段,不僅僅依賴于云計(jì)算對(duì)大數(shù)據(jù)的并行處理能力,而且依賴于算法。這個(gè)算法就是,Deep Learning。借助于 Deep Learning 算法,人類終于找到了如何處理“抽象概念”這個(gè)亙古難題的方法。,1.1 概述,2012年6月,《紐約時(shí)報(bào)》披露了Google Brain項(xiàng)目,吸引了公眾的廣泛關(guān)注。這個(gè)項(xiàng)目是由著名的斯坦福大學(xué)的機(jī)器學(xué)習(xí)教授Andrew Ng和在大規(guī)模計(jì)算機(jī)系統(tǒng)方面的世界頂尖專家Jeff Dean
5、共同主導(dǎo),用16000個(gè)CPU Core的并行計(jì)算平臺(tái)訓(xùn)練一種稱為“深度神經(jīng)網(wǎng)絡(luò)”(DNN,Deep Neural Networks)的機(jī)器學(xué)習(xí)模型(內(nèi)部共有10億個(gè)節(jié)點(diǎn)。,1.1 概述,這一網(wǎng)絡(luò)自然是不能跟人類的神經(jīng)網(wǎng)絡(luò)相提并論的。要知道,人腦中可是有150多億個(gè)神經(jīng)元,互相連接的節(jié)點(diǎn)也就是突觸數(shù)更是如銀河沙數(shù)。曾經(jīng)有人估算過,如果將一個(gè)人的大腦中所有神經(jīng)細(xì)胞的軸突和樹突依次連接起來,并拉成一根直線,可從地球連到月亮,再?gòu)脑铝练祷氐厍?/p>
6、)?!吧疃壬窠?jīng)網(wǎng)絡(luò)”在語音識(shí)別和圖像識(shí)別等領(lǐng)域獲得了巨大的成功。,1.1 概述,項(xiàng)目負(fù)責(zé)人之一Andrew稱:“我們沒有像通常做的那樣自己框定邊界,而是直接把海量數(shù)據(jù)投放到算法中,讓數(shù)據(jù)自己說話,系統(tǒng)會(huì)自動(dòng)從數(shù)據(jù)中學(xué)習(xí)?!绷硗庖幻?fù)責(zé)人Jeff則說:“我們?cè)谟?xùn)練的時(shí)候從來不會(huì)告訴機(jī)器說:‘這是一只貓?!到y(tǒng)其實(shí)是自己發(fā)明或者領(lǐng)悟了“貓”的概念。”,1.1 概述,2012年11月,微軟在中國(guó)天津的一次活動(dòng)上公開演示了一個(gè)全自動(dòng)的同聲傳
7、譯系統(tǒng),講演者用英文演講,后臺(tái)的計(jì)算機(jī)一氣呵成自動(dòng)完成語音識(shí)別、英中機(jī)器翻譯和中文語音合成,效果非常流暢。據(jù)報(bào)道,后面支撐的關(guān)鍵技術(shù)也是DNN,或者深度學(xué)習(xí)(DL,DeepLearning)。2013年1月,在百度年會(huì)上,創(chuàng)始人兼CEO李彥宏高調(diào)宣布要成立百度研究院,其中第一個(gè)成立的就是“深度學(xué)習(xí)研究所”(IDL,Institue of Deep Learning)。,1.1 概述,為什么擁有大數(shù)據(jù)的互聯(lián)網(wǎng)公司爭(zhēng)相投入大量資源研發(fā)深
8、度學(xué)習(xí)技術(shù)。聽起來感覺deeplearning很牛那樣。那什么是deep learning?為什么有deep learning?它是怎么來的?又能干什么呢?目前存在哪些困難呢?這些問題的簡(jiǎn)答都需要慢慢來。咱們先來了解下機(jī)器學(xué)習(xí)(人工智能的核心)的背景。,1.2 背景,機(jī)器學(xué)習(xí)(Machine Learning)是一門專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的
9、性能的學(xué)科。1959年美國(guó)的塞繆爾(Samuel)設(shè)計(jì)了一個(gè)下棋程序,這個(gè)程序具有學(xué)習(xí)能力,它可以在不斷的對(duì)弈中改善自己的棋藝。4年后,這個(gè)程序戰(zhàn)勝了設(shè)計(jì)者本人。又過了3年,這個(gè)程序戰(zhàn)勝了美國(guó)一個(gè)保持8年之久的常勝不敗的冠軍。這個(gè)程序向人們展示了機(jī)器學(xué)習(xí)的能力,提出了許多令人深思的社會(huì)問題與哲學(xué)問題。,1.2 背景,機(jī)器學(xué)習(xí)雖然發(fā)展了幾十年,但還是存在很多沒有良好解決的問題:,1.2 背景,例如圖像識(shí)別、語音識(shí)別、自然語言理解、
10、天氣預(yù)測(cè)、基因表達(dá)、內(nèi)容推薦等等。目前我們通過機(jī)器學(xué)習(xí)去解決這些問題的思路都是這樣的(以視覺感知為例子):,1.2 背景,從開始的通過傳感器(例如CMOS)來獲得數(shù)據(jù)。然后經(jīng)過預(yù)處理、特征提取、特征選擇,再到推理、預(yù)測(cè)或者識(shí)別。最后一個(gè)部分,也就是機(jī)器學(xué)習(xí)的部分,絕大部分的工作是在這方面做的,也存在很多的學(xué)術(shù)論文和研究。而中間的三部分,概括起來就是特征表達(dá)。良好的特征表達(dá),對(duì)最終算法的準(zhǔn)確性起了非常關(guān)鍵的作用,而且系統(tǒng)主要的計(jì)算和測(cè)
11、試工作都耗在這一大部分。但是這塊實(shí)際中一般都是人工完成的,即靠人工提取特征。,1.2 背景,截止現(xiàn)在,也出現(xiàn)了不少優(yōu)秀特征表示方式(好的特征應(yīng)具有不變性(大小、尺度和旋轉(zhuǎn)等)和可區(qū)分性)。例如Sift的出現(xiàn),是局部圖像特征描述子研究領(lǐng)域一項(xiàng)里程碑式的工作。由于SIFT對(duì)尺度、旋轉(zhuǎn)以及一定視角和光照變化等圖像變化都具有不變性,并且SIFT具有很強(qiáng)的可區(qū)分性,的確讓很多問題的解決變?yōu)榭赡?。但它也不是萬能的。,1.2 背景,然而,手工地選
12、取特征是一件非常費(fèi)力、啟發(fā)式(需要專業(yè)知識(shí))的方法,能不能選取好很大程度上靠經(jīng)驗(yàn)和運(yùn)氣,而且它的調(diào)節(jié)需要大量的時(shí)間。既然手工選取特征不太好,那么能不能自動(dòng)地學(xué)習(xí)一些特征呢?答案是能!Deep Learning就是用來干這個(gè)事情的,看它的一個(gè)別名Unsupervised Feature Learning,就可以顧名思義了,Unsupervised的意思就是不要人參與特征的選取過程。,1.2 背景,那它是怎么學(xué)習(xí)的呢?怎么知道哪些特征好
13、哪些不好呢?我們說機(jī)器學(xué)習(xí)是一門專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為的學(xué)科。那人類的視覺系統(tǒng)是怎么工作的呢?為什么在茫茫人海,蕓蕓眾生,滾滾紅塵中我們都可以找到另一個(gè)她(因?yàn)?,你存在我深深的腦海里,我的夢(mèng)里、我的心里、我的歌聲里……)。,1.2 背景,人腦那么優(yōu)秀,我們能不能參考人腦,模擬人腦呢?(注:好像和人腦扯上點(diǎn)關(guān)系的特征、算法,都不錯(cuò),但不知道是不是人為強(qiáng)加的,為了使自己的研究變得神圣和高雅。)近幾十年以來,認(rèn)知神
14、經(jīng)科學(xué)、生物學(xué)等等學(xué)科的發(fā)展,讓我們對(duì)自己這個(gè)神秘的而又神奇的大腦不再那么的陌生。也給人工智能的發(fā)展推波助瀾。,1.3 人腦視覺機(jī)理,1981年的諾貝爾醫(yī)學(xué)/生理學(xué)獎(jiǎng),頒發(fā)給了 David Hubel(出生于加拿大的美國(guó)神經(jīng)生物學(xué)家) 和Torsten Wiesel以及 Roger Sperry。前兩位的主要貢獻(xiàn),是“發(fā)現(xiàn)了視覺系統(tǒng)的信息處理機(jī)制”,發(fā)現(xiàn)可視皮層是分級(jí)的。如“人見到蛇的情景”。,1.3 人腦視覺機(jī)理,我們看看他們做了什么
15、。1958 年,DavidHubel 和Torsten Wiesel 在 JohnHopkins University研究了瞳孔區(qū)域與大腦皮層神經(jīng)元的對(duì)應(yīng)關(guān)系。他們?cè)谪埖暮竽X頭骨上開了一個(gè)3 毫米的小洞,向洞里插入電極,測(cè)量神經(jīng)元的活躍程度。然后,他們?cè)谛∝埖难矍?,展現(xiàn)各種形狀、各種亮度的物體。并且,在展現(xiàn)每一件物體時(shí),還改變物體放置的位置和角度。他們期望通過這個(gè)辦法,讓小貓瞳孔感受不同類型、不同強(qiáng)弱的刺激。,1.3 人腦視覺機(jī)理,
16、之所以做這個(gè)試驗(yàn),目的是去證明一個(gè)猜測(cè):位于后腦皮層的不同視覺神經(jīng)元,與瞳孔所受刺激之間,存在某種對(duì)應(yīng)關(guān)系。一旦瞳孔受到某一種刺激,后腦皮層的某一部分神經(jīng)元就會(huì)活躍。經(jīng)歷了很多天反復(fù)的枯燥的試驗(yàn),同時(shí)犧牲了若干只可憐的小貓,David Hubel 和Torsten Wiesel 發(fā)現(xiàn)了一種被稱為“方向選擇性細(xì)胞(Orientation Selective Cell)”的神經(jīng)元細(xì)胞。當(dāng)瞳孔發(fā)現(xiàn)了眼前的物體的邊緣,而且這個(gè)邊緣指向某個(gè)方
17、向時(shí),這種神經(jīng)元細(xì)胞就會(huì)活躍。這個(gè)發(fā)現(xiàn)激發(fā)了人們對(duì)于神經(jīng)系統(tǒng)的進(jìn)一步思考。神經(jīng)-中樞-大腦的工作過程,或許是一個(gè)不斷迭代、不斷抽象的過程。,1.3 人腦視覺機(jī)理,這里的關(guān)鍵詞有兩個(gè),一個(gè)是抽象,一個(gè)是迭代。從原始信號(hào),做低級(jí)抽象,逐漸向高級(jí)抽象迭代。人類的邏輯思維,經(jīng)常使用高度抽象的概念。例如,從原始信號(hào)攝入開始(瞳孔攝入像素 Pixels),接著做初步處理(大腦皮層某些細(xì)胞發(fā)現(xiàn)邊緣和方向),然后抽象(大腦判定,眼前的物體的形狀
18、,是圓形的),然后進(jìn)一步抽象(大腦進(jìn)一步判定該物體是只氣球)。再比如人臉識(shí)別,如下圖:,1.3 人腦視覺機(jī)理,這個(gè)生理學(xué)的發(fā)現(xiàn),促成了計(jì)算機(jī)人工智能在四十年后的突破性發(fā)展??偟膩碚f,人的視覺系統(tǒng)的信息處理是分級(jí)的。從低級(jí)的V1區(qū)提取邊緣特征,再到V2區(qū)的形狀或者目標(biāo)的部分等,再到更高層,整個(gè)目標(biāo)、目標(biāo)的行為等。也就是說高層的特征是低層特征的組合,從低層到高層的特征表示越來越抽象,越來越能表現(xiàn)語義或者意圖。而抽象層面越高,存在
19、的可能猜測(cè)就越少,就越利于分類。例如,單詞集合和句子的對(duì)應(yīng)是多對(duì)一的,句子和語義的對(duì)應(yīng)又是多對(duì)一的,語義和意圖的對(duì)應(yīng)還是多對(duì)一的,這是個(gè)層級(jí)體系。,1.3 人腦視覺機(jī)理,敏感的人注意到這個(gè)關(guān)鍵詞了:分層。而Deep learning的deep是不是就表示我存在多少層,也就是多深呢?對(duì)。那Deep learning是如何借鑒這個(gè)過程的呢?畢竟是歸于計(jì)算機(jī)來處理,面對(duì)的一個(gè)問題就是怎么對(duì)這個(gè)過程進(jìn)行建模?因?yàn)槲覀円獙W(xué)習(xí)的是特征的
20、表達(dá),那么關(guān)于特征,或者說關(guān)于這個(gè)層級(jí)特征,我們需要了解地更深入點(diǎn)。所以在說Deep Learning之前,我們下面有必要解釋一下特征。,1.4 關(guān)于特征,特征是機(jī)器學(xué)習(xí)系統(tǒng)的原材料,對(duì)最終模型的影響是毋庸置疑的。如果數(shù)據(jù)被很好地表達(dá)成了特征,通常線性模型就能達(dá)到滿意的精度。那對(duì)于特征,我們需要考慮什么呢?,1.4 關(guān)于特征,1.4.1 特征表示的粒度1.4.2 初級(jí)(淺層)特征表示1.4.3 結(jié)構(gòu)性特征表示1.4.4 需
21、要有多少個(gè)特征,1.4.1 特征表示的粒度,學(xué)習(xí)算法在一個(gè)什么粒度上的特征表示,才有能發(fā)揮作用?就一個(gè)圖片來說,像素級(jí)的特征根本沒有價(jià)值。例如上面的摩托車,從像素級(jí)別,根本得不到任何信息,其無法進(jìn)行摩托車和非摩托車的區(qū)分。,1.4.1 特征表示的粒度,而如果特征是一個(gè)具有結(jié)構(gòu)性(或者說有含義)的時(shí)候,比如是否具有車把手(handle),是否具有車輪(wheel),就很容易把摩托車和非摩托車區(qū)分開來,學(xué)習(xí)算法才能發(fā)揮作用。,1
22、.4.2 初級(jí)(淺層)特征表示,既然像素級(jí)的特征表示方法沒有作用,那怎樣的表示才有用呢?1995 年前后,Bruno Olshausen和 David Field 兩位學(xué)者任職 Cornell University,他們?cè)噲D同時(shí)用生理學(xué)和計(jì)算機(jī)的手段,雙管齊下,研究視覺問題。他們收集了很多黑白風(fēng)景照片,從這些照片中,提取出400個(gè)小碎片,每個(gè)小碎片的尺寸均為 16x16 像素,不妨把這400個(gè)碎片標(biāo)記為 S[i], i = 0,
23、.. 399。接下來,再?gòu)倪@些黑白風(fēng)景照片中,隨機(jī)提取另一個(gè)碎片,尺寸也是 16x16 像素,不妨把這個(gè)碎片標(biāo)記為 T。,1.4.2 初級(jí)(淺層)特征表示,他們提出的問題是,如何從這400個(gè)碎片中,選取一組碎片S[k], 通過疊加的辦法,合成出一個(gè)新的碎片,而這個(gè)新的碎片應(yīng)當(dāng)與隨機(jī)選擇的目標(biāo)碎片T盡可能相似,同時(shí),S[k]的數(shù)量盡可能少。用數(shù)學(xué)的語言來描述,就是:Sum_k (a[k] * S[k]) --> T,
24、 其中 a[k] 是在疊加碎片 S[k] 時(shí)的權(quán)重系數(shù)。為解決這個(gè)問題,Bruno Olshausen和 David Field 發(fā)明了一個(gè)算法,稀疏編碼(Sparse Coding)。,1.4.2 初級(jí)(淺層)特征表示,稀疏編碼是一個(gè)重復(fù)迭代的過程,每次迭代分兩步:1)選擇一組 S[k],然后調(diào)整 a[k],使得Sum_k (a[k] * S[k]) 最接近 T ;2)固定住 a[k],在
25、 400 個(gè)碎片中,選擇其它更合適的碎片S’[k],替代原先的 S[k],使得Sum_k (a[k] * S’[k]) 最接近 T 。經(jīng)過幾次迭代后,最佳的 S[k] 組合被遴選出來。令人驚奇的是,被選中的 S[k]基本上都是照片上不同物體的邊緣線,這些線段形狀相似,區(qū)別在于方向。,1.4.2 初級(jí)(淺層)特征表示,Bruno Olshausen和 David Field 的算法結(jié)果,與 David Hubel 和Torsten W
26、iesel 的生理發(fā)現(xiàn),不謀而合!也就是說,復(fù)雜圖形往往由一些基本結(jié)構(gòu)組成。比如下圖:一個(gè)圖可以通過用64種正交的edges(可以理解成正交的基本結(jié)構(gòu))來線性表示。比如樣例的x可以用1-64個(gè)edges中的三個(gè)按照0.8,0.3,0.5的權(quán)重調(diào)和而成。而其他基本edge沒有貢獻(xiàn),因此均為0 。,1.4.2 初級(jí)(淺層)特征表示,另外,許多專家還發(fā)現(xiàn),不僅圖像存在這個(gè)規(guī)律,聲音也存在。他們從未標(biāo)注的聲音中發(fā)現(xiàn)了20種基本的聲音結(jié)構(gòu),其
27、余的聲音可以由這20種基本結(jié)構(gòu)合成。,1.4.3 結(jié)構(gòu)性特征表示,小塊的圖形可以由基本edge構(gòu)成,更結(jié)構(gòu)化,更復(fù)雜的,具有概念性的圖形如何表示呢?這就需要更高層次的特征表示,比如V2,V4。因此V1看像素級(jí)是像素級(jí)。V2看V1是像素級(jí),這個(gè)是層次遞進(jìn)的,高層表達(dá)由底層表達(dá)的組合而成。專業(yè)點(diǎn)說就是基basis。V1區(qū)提出的basis是邊緣,然后V2層是V1層這些basis的組合,這時(shí)候V2區(qū)得到的又是高一層的basis,上上層又
28、是上一層的組合basis結(jié)果...所以有專家說Deep learning就是“搞基”,因?yàn)殡y聽,所以美其名曰Deep learning或者Unsupervised Feature Learning.,1.4.3 結(jié)構(gòu)性特征表示,直觀上說,就是找到有意義的小碎片(patch),再將其進(jìn)行組合(combine),就得到了上一層的特征(feature),遞歸地向上學(xué)習(xí)特征(learning feature)。,1.4.3 結(jié)構(gòu)性特征表示,
29、在不同對(duì)象(object)上做訓(xùn)練時(shí),所得的邊緣基(edge basis)是非常相似的,但對(duì)象部分(object parts)和模式(models) 完全不同。這樣便于圖像的準(zhǔn)確識(shí)別。,1.4.3 結(jié)構(gòu)性特征表示,從文本來說,一個(gè)doc文檔表示什么意思?我們描述一件事情,用什么來表示比較合適?用一個(gè)一個(gè)字嘛?不是,字就是像素級(jí)別了,起碼應(yīng)該是term(術(shù)語/詞組),換句話說每個(gè)doc都由term構(gòu)成;但這樣表示概念的能力就夠了嘛,
30、可能也不夠,需要再上一步,達(dá)到topic級(jí),有了topic,再到doc就合理。但每個(gè)層次的數(shù)量差距很大,比如doc表示的概念->topic(千-萬量級(jí))->term(10萬量級(jí))->word(百萬量級(jí))。一個(gè)人在看一個(gè)doc的時(shí)候,眼睛看到的是word,由這些word在大腦里自動(dòng)切詞形成term,在按照概念組織的方式,先驗(yàn)的學(xué)習(xí),得到topic,然后再進(jìn)行高層次的learning。,1.4.4 需要有多少個(gè)特征,
31、我們知道需要層次的特征構(gòu)建,由淺入深,但每一層該有多少個(gè)特征呢?任何一種方法,特征越多,給出的參考信息就越多,準(zhǔn)確性會(huì)得到提升。但特征多意味著計(jì)算復(fù)雜,探索的空間大,可以用來訓(xùn)練的數(shù)據(jù)在每個(gè)特征上就會(huì)稀疏,都會(huì)帶來各種問題,并不一定特征越多越好。,小 結(jié),上面我們談到為什么會(huì)有Deep learning(讓機(jī)器自動(dòng)學(xué)習(xí)良好的特征,而免去人工選取過程。還有參考人的分層視覺處理系統(tǒng)),我們得到一個(gè)結(jié)論就是Deep learning需要多
32、層來獲得更抽象的特征表達(dá)。那么多少層才合適呢?用什么架構(gòu)來建模呢?怎么進(jìn)行非監(jiān)督訓(xùn)練呢?,1.5 深度學(xué)習(xí)的基本思想,假設(shè)我們有一個(gè)系統(tǒng)S,它有n層(S1,…Sn),它的輸入是I,輸出是O,形象地表示為: I =>S1=>S2=>…..=>Sn => O,如果輸出O等于輸入I,即輸入I經(jīng)過這個(gè)系統(tǒng)變化之后沒有任何的信息損失。這意味著輸入I經(jīng)過每一層Si都沒有任何的信息損失,即在任何一層Si,它都是原有信
33、息(即輸入I)的另外一種表示?,F(xiàn)在回到我們的主題Deep Learning,我們需要自動(dòng)地學(xué)習(xí)特征,假設(shè)我們有一堆輸入I(如一堆圖像或者文本),假設(shè)我們?cè)O(shè)計(jì)了一個(gè)系統(tǒng)S(有n層),我們通過調(diào)整系統(tǒng)中參數(shù),使得它的輸出仍然是輸入I,那么我們就可以自動(dòng)地獲取得到輸入I的一系列層次特征,即S1,…, Sn。,1.5 深度學(xué)習(xí)的基本思想,對(duì)于深度學(xué)習(xí)來說,其思想就是對(duì)堆疊多個(gè)層,也就是說這一層的輸出作為下一層的輸入。通過這種方式,就可以實(shí)現(xiàn)
34、對(duì)輸入信息進(jìn)行分級(jí)表達(dá)了。另外,前面是假設(shè)輸出嚴(yán)格地等于輸入,這個(gè)限制太嚴(yán)格,我們可以略微地放松這個(gè)限制,例如我們只要使得輸入與輸出的差別盡可能地小即可,這個(gè)放松會(huì)導(dǎo)致另外一類不同的Deep Learning方法。上述就是Deep Learning的基本思想。,1.6 淺層學(xué)習(xí)和深度學(xué)習(xí),1.6.1 淺層學(xué)習(xí)(Shallow Learning):機(jī)器學(xué)習(xí)第一次浪潮1.6.2 深度學(xué)習(xí)(Deep Learning):機(jī)器學(xué)習(xí)第二次
35、浪潮,1.6.1 淺層學(xué)習(xí):機(jī)器學(xué)習(xí)第一次浪潮,20世紀(jì)80年代末期,用于人工神經(jīng)網(wǎng)絡(luò)的反向傳播算法(也叫Back Propagation算法或者BP算法)的發(fā)明,給機(jī)器學(xué)習(xí)帶來了希望,掀起了基于統(tǒng)計(jì)模型的機(jī)器學(xué)習(xí)熱潮。這個(gè)熱潮一直持續(xù)到今天。人們發(fā)現(xiàn),利用BP算法可以讓一個(gè)人工神經(jīng)網(wǎng)絡(luò)模型從大量訓(xùn)練樣本中學(xué)習(xí)統(tǒng)計(jì)規(guī)律,從而對(duì)未知事件做預(yù)測(cè)。這種基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)方法比起過去基于人工規(guī)則的系統(tǒng),在很多方面顯出優(yōu)越性。這個(gè)時(shí)候的人
36、工神經(jīng)網(wǎng)絡(luò),雖也被稱作多層感知機(jī)(Multi-layer Perceptron),但實(shí)際是一種只含有一層隱層節(jié)點(diǎn)的淺層模型。,1.6.1 淺層學(xué)習(xí):機(jī)器學(xué)習(xí)第一次浪潮,20世紀(jì)90年代,各種各樣的淺層機(jī)器學(xué)習(xí)模型相繼被提出,例如支撐向量機(jī)(SVM,Support Vector Machines)、 Boosting、最大熵方法(如LR,Logistic Regression)等。這些模型的結(jié)構(gòu)基本上可以看成帶有一層隱層節(jié)點(diǎn)(如SVM
37、、Boosting),或沒有隱層節(jié)點(diǎn)(如LR)。這些模型無論是在理論分析還是應(yīng)用中都獲得了巨大的成功。相比之下,由于理論分析的難度大,訓(xùn)練方法又需要很多經(jīng)驗(yàn)和技巧,這個(gè)時(shí)期深度人工神經(jīng)網(wǎng)絡(luò)反而相對(duì)沉寂。,1.6.2 深度學(xué)習(xí):機(jī)器學(xué)習(xí)第二次浪潮,2006年,加拿大多倫多大學(xué)教授、機(jī)器學(xué)習(xí)領(lǐng)域的泰斗Geoffrey Hinton和他的學(xué)生Ruslan Salak hutdinov在國(guó)際頂級(jí)期刊《科學(xué)》上發(fā)表了一篇文章,開啟了深度學(xué)習(xí)在
38、學(xué)術(shù)界和工業(yè)界的浪潮。這篇文章有兩個(gè)主要觀點(diǎn):1)多隱層的人工神經(jīng)網(wǎng)絡(luò)具有優(yōu)異的特征學(xué)習(xí)能力,學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫,從而有利于可視化或分類;2)深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過“逐層初始化”(layer-wise pre-training)來有效克服,在這篇文章中,逐層初始化是通過無監(jiān)督學(xué)習(xí)實(shí)現(xiàn)的。,當(dāng)前多數(shù)分類、回歸等學(xué)習(xí)方法為淺層結(jié)構(gòu)算法,其局限性在于有限樣本和計(jì)算單元情況下對(duì)復(fù)雜函數(shù)的表示能力有限,針
39、對(duì)復(fù)雜分類問題其泛化能力受到一定制約。深度學(xué)習(xí)可通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示,并展現(xiàn)了強(qiáng)大的從少數(shù)樣本中集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力。(多層的好處是可以用較少的參數(shù)表示復(fù)雜的函數(shù)),1.6.2 深度學(xué)習(xí):機(jī)器學(xué)習(xí)第二次浪潮,1.6.2 深度學(xué)習(xí):機(jī)器學(xué)習(xí)第二次浪潮,深度學(xué)習(xí)的實(shí)質(zhì),是通過構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測(cè)的準(zhǔn)確性。因此
40、,“深度模型”是手段,“特征學(xué)習(xí)”是目的。區(qū)別于傳統(tǒng)的淺層學(xué)習(xí),深度學(xué)習(xí)的不同在于:1)強(qiáng)調(diào)了模型結(jié)構(gòu)的深度,通常有5層、6層,甚至10多層的隱層節(jié)點(diǎn);2)明確突出了特征學(xué)習(xí)的重要性,也就是說,通過逐層特征變換,將樣本在原空間的特征表示變換到一個(gè)新特征空間,從而使分類或預(yù)測(cè)更加容易。與人工規(guī)則構(gòu)造特征的方法相比,利用大數(shù)據(jù)來學(xué)習(xí)特征,更能夠刻畫數(shù)據(jù)的豐富內(nèi)在信息。,1.6.2 深度學(xué)習(xí):機(jī)器學(xué)習(xí)第二次浪潮,1.7 Deep
41、learning與Neural Network,深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個(gè)新的領(lǐng)域,其動(dòng)機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像,聲音和文本。深度學(xué)習(xí)是無監(jiān)督學(xué)習(xí)的一種。深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。,1.7 Deep learning與Neural
42、Network,Deep learning本身算是machine learning的一個(gè)分支,簡(jiǎn)單可以理解為neural network的發(fā)展。大約二三十年前,neural network曾經(jīng)是ML領(lǐng)域特別火熱的一個(gè)方向,但是后來確慢慢淡出了,原因包括以下幾個(gè)方面:1)比較容易過擬合,參數(shù)比較難調(diào)整,而且需要不少竅門;2)訓(xùn)練速度比較慢,在層次比較少(小于等于3)的情況下效果并不比其它方法更優(yōu);,1.7 Deep learnin
43、g與Neural Network,所以中間有大約20多年的時(shí)間,神經(jīng)網(wǎng)絡(luò)被關(guān)注很少,這段時(shí)間基本上是SVM和boosting算法的天下。但是,一個(gè)癡心的老先生Hinton,他堅(jiān)持了下來,并最終(和其它人一起B(yǎng)engio、Yann.lecun等)提成了一個(gè)實(shí)際可行的deep learning框架。,1.7 Deep learning與Neural Network,Deep learning與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)之間有相同的地方也有很多不同。
44、相同點(diǎn):deep learning采用了神經(jīng)網(wǎng)絡(luò)相似的分層結(jié)構(gòu),系統(tǒng)由包括輸入層、隱層(多層)、輸出層組成的多層網(wǎng)絡(luò),只有相鄰層節(jié)點(diǎn)之間有連接,同一層以及跨層節(jié)點(diǎn)之間相互無連接,每一層可以看作是一個(gè)邏輯回歸模型;這種分層結(jié)構(gòu),是比較接近人類大腦的結(jié)構(gòu)的。,1.7 Deep learning與Neural Network,Deep learning與Neural Network異同,而為了克服神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的問題,DL采用了與神經(jīng)網(wǎng)絡(luò)
45、很不同的訓(xùn)練機(jī)制。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)中,采用的是反向傳播(BP)的方式進(jìn)行。即采用迭代的算法來訓(xùn)練整個(gè)網(wǎng)絡(luò),隨機(jī)設(shè)定初值,計(jì)算當(dāng)前網(wǎng)絡(luò)的輸出,然后根據(jù)當(dāng)前計(jì)算的輸出值和實(shí)際的標(biāo)記值之間的差去改變前面各層的參數(shù),直到收斂(整體是一個(gè)梯度下降法)。deep learning整體上是一個(gè)layer-wise的訓(xùn)練機(jī)制。這樣做的原因是因?yàn)?,如果采用back propagation的機(jī)制,對(duì)于一個(gè)deep network(7層以上),殘差傳播到
46、最前面的層已經(jīng)變得太小,出現(xiàn)所謂的gradient diffusion(梯度擴(kuò)散)。這個(gè)問題在后面有所討論。,1.8 Deep learning訓(xùn)練過程,1.8.1 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法為什么不能用在深度神經(jīng)網(wǎng)絡(luò)1.8.2 deep learning訓(xùn)練過程,1.8.1 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法為什么不能用在深度神經(jīng)網(wǎng)絡(luò),BP算法作為傳統(tǒng)訓(xùn)練多層網(wǎng)絡(luò)的典型算法,實(shí)際上對(duì)僅含幾層網(wǎng)絡(luò),該訓(xùn)練方法就已經(jīng)很不理想。深度結(jié)構(gòu)(涉及多個(gè)非
47、線性處理單元層)非凸目標(biāo)代價(jià)函數(shù)中普遍存在的局部最小是訓(xùn)練困難的主要來源。,1.8.1 傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法為什么不能用在深度神經(jīng)網(wǎng)絡(luò),BP算法存在的問題:(1)梯度越來越稀疏:從頂層越往下,誤差校正信號(hào)越來越?。唬?)收斂到局部最小值:尤其是從遠(yuǎn)離最優(yōu)區(qū)域開始的時(shí)候(隨機(jī)值初始化會(huì)導(dǎo)致這種情況的發(fā)生);(3)一般,我們只能用有標(biāo)簽的數(shù)據(jù)來訓(xùn)練:但大部分的數(shù)據(jù)是沒標(biāo)簽的,而大腦可以從沒有標(biāo)簽的數(shù)據(jù)中學(xué)習(xí);,1.8.2 de
48、ep learning訓(xùn)練過程,如果對(duì)所有層同時(shí)訓(xùn)練,時(shí)間復(fù)雜度會(huì)太高;如果每次訓(xùn)練一層,偏差就會(huì)逐層傳遞。這會(huì)面臨跟上面監(jiān)督學(xué)習(xí)中相反的問題,會(huì)嚴(yán)重欠擬合(因?yàn)樯疃染W(wǎng)絡(luò)的神經(jīng)元和參數(shù)太多了)。,1.8.2 deep learning訓(xùn)練過程,2006年,hinton提出了在非監(jiān)督數(shù)據(jù)上建立多層神經(jīng)網(wǎng)絡(luò)的一個(gè)有效方法,簡(jiǎn)單的說,分為兩步,一是每次訓(xùn)練一層網(wǎng)絡(luò),二是調(diào)優(yōu),使原始表示x向上生成的高級(jí)表示r和該高級(jí)表示r向下生成的x'
49、盡可能一致。方法是:1)首先逐層構(gòu)建單層神經(jīng)元,這樣每次都是訓(xùn)練一個(gè)單層網(wǎng)絡(luò)。2)當(dāng)所有層訓(xùn)練完后,Hinton使用wake-sleep算法進(jìn)行調(diào)優(yōu)。,1.8.2 deep learning訓(xùn)練過程,將除最頂層的其它層間的權(quán)重變?yōu)殡p向的,這樣最頂層仍然是一個(gè)單層神經(jīng)網(wǎng)絡(luò),而其它層則變?yōu)榱藞D模型。向上的權(quán)重用于“認(rèn)知”,向下的權(quán)重用于“生成”。然后使用Wake-Sleep算法調(diào)整所有的權(quán)重。讓認(rèn)知和生成達(dá)成一致,也就是保證生成
50、的最頂層表示能夠盡可能正確的復(fù)原底層的結(jié)點(diǎn)。比如頂層的一個(gè)結(jié)點(diǎn)表示人臉,那么所有人臉的圖像應(yīng)該激活這個(gè)結(jié)點(diǎn),并且這個(gè)結(jié)果向下生成的圖像應(yīng)該能夠表現(xiàn)為一個(gè)大概的人臉圖像。,1.8.2 deep learning訓(xùn)練過程,Wake-Sleep算法分為醒(wake)和睡(sleep)兩個(gè)部分。1)wake階段:認(rèn)知過程(從現(xiàn)實(shí)到概念),通過外界的特征和向上的權(quán)重(認(rèn)知權(quán)重)產(chǎn)生每一層的抽象表示(結(jié)點(diǎn)狀態(tài)),并且使用梯度下降修改層間的下
51、行權(quán)重(生成權(quán)重)。如:“如果現(xiàn)實(shí)跟我想象的不一樣,改變我的權(quán)重使得我想象的東西就是這樣的”。,1.8.2 deep learning訓(xùn)練過程,2)sleep階段:生成過程(從概念到現(xiàn)實(shí)),通過頂層表示(醒時(shí)學(xué)得的概念)和向下權(quán)重(生成權(quán)重),生成底層的狀態(tài),同時(shí)修改層間向上的權(quán)重。如:“如果夢(mèng)中的景象不是我腦中的相應(yīng)概念,改變我的向上的權(quán)重(認(rèn)知權(quán)重)使得這種景象在我看來就是這個(gè)概念”。,deep learning具體訓(xùn)練過程
52、,1)使用自下上升非監(jiān)督學(xué)習(xí)(就是從底層開始,一層一層的往頂層訓(xùn)練)2)自頂向下的監(jiān)督學(xué)習(xí)(就是通過帶標(biāo)簽的數(shù)據(jù)去訓(xùn)練,誤差自頂向下傳輸,對(duì)網(wǎng)絡(luò)進(jìn)行微調(diào)),1)使用自下上升非監(jiān)督學(xué)習(xí),采用無標(biāo)定數(shù)據(jù)(有標(biāo)定數(shù)據(jù)也可)分層訓(xùn)練各層參數(shù),這一步可以看作是一個(gè)無監(jiān)督訓(xùn)練過程,是和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)區(qū)別最大的部分(這個(gè)過程可以看作是feature learning過程):具體的,先用無標(biāo)定數(shù)據(jù)訓(xùn)練第一層,訓(xùn)練時(shí)先學(xué)習(xí)第一層的參數(shù)(這一層可以看
53、作是得到一個(gè)使得輸出和輸入差別最小的三層神經(jīng)網(wǎng)絡(luò)的隱層),由于模型capacity的限制以及稀疏性約束,使得得到的模型能夠?qū)W習(xí)到數(shù)據(jù)本身的結(jié)構(gòu),從而得到比輸入更具有表示能力的特征;在學(xué)習(xí)得到第n-1層后,將n-1層的輸出作為第n層的輸入,訓(xùn)練第n層,由此分別得到各層的參數(shù);,2)自頂向下的監(jiān)督學(xué)習(xí),基于第一步得到的各層參數(shù)進(jìn)一步調(diào)整整個(gè)多層模型的參數(shù),這一步是一個(gè)有監(jiān)督訓(xùn)練過程;第一步類似神經(jīng)網(wǎng)絡(luò)的隨機(jī)初始化初值過程,由于DL的第一步不
54、是隨機(jī)初始化,而是通過學(xué)習(xí)輸入數(shù)據(jù)的結(jié)構(gòu)得到的,因而這個(gè)初值更接近全局最優(yōu),從而能夠取得更好的效果;所以,deep learning效果好很大程度上歸功于第一步的feature learning過程。,1.9 Deep Learning的常用模型或者方法,1.9.1 AutoEncoder 自動(dòng)編碼器1.9.2 Sparse Coding 稀疏編碼1.9.3 Restricted Boltzmann Machine (RBM)
55、限制波爾茲曼機(jī)1.9.4 Deep Belief Networks 深度信念網(wǎng)絡(luò)1.9.5 Convolutional Neural Networks卷積神經(jīng)網(wǎng)絡(luò),1.9.1 AutoEncoder 自動(dòng)編碼器,Deep Learning最簡(jiǎn)單的一種方法是利用人工神經(jīng)網(wǎng)絡(luò)的特點(diǎn),人工神經(jīng)網(wǎng)絡(luò)(ANN)本身就是具有層次結(jié)構(gòu)的系統(tǒng),如果給定一個(gè)神經(jīng)網(wǎng)絡(luò),我們假設(shè)其輸出與輸入是相同的,然后訓(xùn)練調(diào)整其參數(shù),得到每一層中的權(quán)重。自然地,我
56、們就得到了輸入I的幾種不同表示(每一層代表一種表示),這些表示就是特征。自動(dòng)編碼器就是一種盡可能復(fù)現(xiàn)輸入信號(hào)的神經(jīng)網(wǎng)絡(luò)。為了實(shí)現(xiàn)這種復(fù)現(xiàn),自動(dòng)編碼器就必須捕捉可以代表輸入數(shù)據(jù)的最重要的因素,就像PCA那樣,找到可以代表原信息的主要成分。,具體過程,1)給定無標(biāo)簽數(shù)據(jù),用非監(jiān)督學(xué)習(xí)學(xué)習(xí)特征2)通過編碼器產(chǎn)生特征,然后訓(xùn)練下一層,這樣逐層訓(xùn)練3)有監(jiān)督微調(diào),1)給定無標(biāo)簽數(shù)據(jù),用非監(jiān)督學(xué)習(xí)學(xué)習(xí)特征,在我們之前的神經(jīng)網(wǎng)絡(luò)中,如第一個(gè)圖,我
57、們輸入的樣本是有標(biāo)簽的,即(input, target),這樣我們根據(jù)當(dāng)前輸出和target(label)之間的差去改變前面各層的參數(shù),直到收斂。但現(xiàn)在我們只有無標(biāo)簽數(shù)據(jù),也就是右邊的圖。那么這個(gè)誤差怎么得到呢?,1)給定無標(biāo)簽數(shù)據(jù),用非監(jiān)督學(xué)習(xí)學(xué)習(xí)特征,如下圖,我們將input輸入一個(gè)encoder編碼器,就會(huì)得到一個(gè)code,這個(gè)code也就是輸入的一個(gè)表示,那么我們?cè)趺粗肋@個(gè)code表示的就是input呢?我們加一個(gè)decode
58、r解碼器,這時(shí)候decoder就會(huì)輸出一個(gè)信息,那么如果輸出的這個(gè)信息和一開始的輸入信號(hào)input是很像的(理想情況下就是一樣的),那很明顯,我們就有理由相信這個(gè)code是靠譜的。所以,我們就通過調(diào)整encoder和decoder的參數(shù),使得重構(gòu)誤差最小,這時(shí)候我們就得到了輸入input信號(hào)的第一個(gè)表示了,也就是編碼code了。因?yàn)槭菬o標(biāo)簽數(shù)據(jù),所以誤差的來源就是直接重構(gòu)后與原輸入相比得到。,1.9.4 Deep Belief Netw
59、orks 深度信念網(wǎng)絡(luò),DBNs是一個(gè)概率生成模型,與傳統(tǒng)的判別模型的神經(jīng)網(wǎng)絡(luò)相對(duì),生成模型是建立一個(gè)觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布,對(duì)P(Observation|Label)和 P(Label|Observation)都做了評(píng)估,而判別模型僅僅評(píng)估了后者而已,也就是P(Label|Observation)。對(duì)于在深度神經(jīng)網(wǎng)絡(luò)應(yīng)用傳統(tǒng)的BP算法的時(shí)候,DBNs遇到了以下問題:(1)需要為訓(xùn)練提供一個(gè)有標(biāo)簽的樣本集;(2)學(xué)習(xí)過程較慢
60、;(3)不適當(dāng)?shù)膮?shù)選擇會(huì)導(dǎo)致學(xué)習(xí)收斂于局部最優(yōu)解。,1.9.4 Deep Belief Networks 深度信念網(wǎng)絡(luò),1.9.4 Deep Belief Networks 深度信念網(wǎng)絡(luò),DBNs由多個(gè)限制玻爾茲曼機(jī)(Restricted Boltzmann Machines)層組成,一個(gè)典型的神經(jīng)網(wǎng)絡(luò)類型如圖三所示。這些網(wǎng)絡(luò)被“限制”為一個(gè)可視層和一個(gè)隱層,層間存在連接,但層內(nèi)的單元間不存在連接。隱層單元被訓(xùn)練去捕捉在可視層表現(xiàn)出
61、來的高階數(shù)據(jù)的相關(guān)性。,1.9.4 Deep Belief Networks 深度信念網(wǎng)絡(luò),在最高兩層,權(quán)值被連接到一起,這樣更低層的輸出將會(huì)提供一個(gè)參考的線索或者關(guān)聯(lián)給頂層,這樣頂層就會(huì)將其聯(lián)系到它的記憶內(nèi)容。而我們最關(guān)心的,最后想得到的就是判別性能,例如分類任務(wù)里面。,1.9.4 Deep Belief Networks 深度信念網(wǎng)絡(luò),在預(yù)訓(xùn)練后,DBN可以通過利用帶標(biāo)簽數(shù)據(jù)用BP算法去對(duì)判別性能做調(diào)整。在這里,一個(gè)標(biāo)簽集將被附加到
62、頂層(推廣聯(lián)想記憶),通過一個(gè)自下向上的,學(xué)習(xí)到的識(shí)別權(quán)值獲得一個(gè)網(wǎng)絡(luò)的分類面。這個(gè)性能會(huì)比單純的BP算法訓(xùn)練的網(wǎng)絡(luò)好。這可以很直觀的解釋,DBNs的BP算法只需要對(duì)權(quán)值參數(shù)空間進(jìn)行一個(gè)局部的搜索,這相比前向神經(jīng)網(wǎng)絡(luò)來說,訓(xùn)練是要快的,而且收斂的時(shí)間也少。,1.9.4 Deep Belief Networks 深度信念網(wǎng)絡(luò),DBNs的靈活性使得它的拓展比較容易。一個(gè)拓展就是卷積DBNs(Convolutional Deep Beli
63、ef Networks(CDBNs))。DBNs并沒有考慮到圖像的2維結(jié)構(gòu)信息,因?yàn)檩斎胧呛?jiǎn)單的從一個(gè)圖像矩陣一維向量化的。而CDBNs就是考慮到了這個(gè)問題,它利用鄰域像素的空域關(guān)系,通過一個(gè)稱為卷積RBMs的模型區(qū)達(dá)到生成模型的變換不變性,而且可以容易得變換到高維圖像。DBNs并沒有明確地處理對(duì)觀察變量的時(shí)間聯(lián)系的學(xué)習(xí)上,雖然目前已經(jīng)有這方面的研究,例如堆疊時(shí)間RBMs,以此為推廣,有序列學(xué)習(xí)的dubbed temporal co
64、nvolutionmachines刺激顳葉卷積機(jī),這種序列學(xué)習(xí)的應(yīng)用,給語音信號(hào)處理問題帶來了一個(gè)讓人激動(dòng)的未來研究方向。,1.9.4 Deep Belief Networks 深度信念網(wǎng)絡(luò),目前,和DBNs有關(guān)的研究包括堆疊自動(dòng)編碼器,它是通過用堆疊自動(dòng)編碼器來替換傳統(tǒng)DBNs里面的RBMs。這就使得可以通過同樣的規(guī)則來訓(xùn)練產(chǎn)生深度多層神經(jīng)網(wǎng)絡(luò)架構(gòu),但它缺少層的參數(shù)化的嚴(yán)格要求。與DBNs不同,自動(dòng)編碼器使用判別模型,這樣這個(gè)結(jié)構(gòu)就很
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 機(jī)器學(xué)習(xí)研究進(jìn)展-中創(chuàng)軟件
- 基于深度學(xué)習(xí)的目標(biāo)識(shí)別研究及其多機(jī)器人編隊(duì)?wèi)?yīng)用.pdf
- 深度學(xué)習(xí)及其應(yīng)用:機(jī)器學(xué)習(xí)學(xué)術(shù)報(bào)告
- nao機(jī)器人編程學(xué)習(xí)
- 基于機(jī)器視覺及機(jī)器學(xué)習(xí)的室內(nèi)機(jī)器人導(dǎo)航研究.pdf
- 機(jī)器人導(dǎo)論論文關(guān)于智能機(jī)器人的學(xué)習(xí)報(bào)告
- 基于深度學(xué)習(xí)的工業(yè)分揀機(jī)器人快速視覺識(shí)別定位算法.pdf
- 創(chuàng)意機(jī)器人學(xué)習(xí)與研究——智能晾衣機(jī)器人
- 工業(yè)機(jī)器人迭代學(xué)習(xí)控制策略研究
- 發(fā)育機(jī)器人集成學(xué)習(xí)算法研究.pdf
- (學(xué)習(xí)資料)卟啉化合物的應(yīng)用研究進(jìn)展
- 家用學(xué)習(xí)機(jī)器人在智能機(jī)器設(shè)備發(fā)展中的應(yīng)用研究(論文)家用學(xué)習(xí)機(jī)器人(設(shè)計(jì))-畢業(yè)論
- 多種機(jī)器學(xué)習(xí)方法在足球機(jī)器人系統(tǒng)中的應(yīng)用.pdf
- [學(xué)習(xí)]肺動(dòng)脈高壓研究進(jìn)展
- 強(qiáng)化學(xué)習(xí)在足球機(jī)器人仿真中的應(yīng)用.pdf
- RoboCup仿真機(jī)器人足球多代理系統(tǒng)的機(jī)器學(xué)習(xí)研究與應(yīng)用(英).pdf
- 基于對(duì)比演示的機(jī)器人任務(wù)學(xué)習(xí)研究.pdf
- 發(fā)育機(jī)器人增量學(xué)習(xí)方法研究.pdf
- 工業(yè)機(jī)器人迭代學(xué)習(xí)控制方法研究.pdf
- 家用學(xué)習(xí)機(jī)器人在智能機(jī)器設(shè)備發(fā)展中的應(yīng)用研究(論文)家用學(xué)習(xí)機(jī)器人(設(shè)計(jì))-畢業(yè)論文
評(píng)論
0/150
提交評(píng)論