2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩84頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、卷積神經(jīng)網(wǎng)絡(luò)CNN從入門到精通卷積神經(jīng)網(wǎng)絡(luò)算法的一個實(shí)現(xiàn)前言從理解卷積神經(jīng)到實(shí)現(xiàn)它,前后花了一個月時間,現(xiàn)在也還有一些地方?jīng)]有理解透徹,CNN還是有一定難度的,不是看哪個的博客和一兩篇論文就明白了,主要還是靠自己去專研,閱讀推薦列表在末尾的參考文獻(xiàn)。目前實(shí)現(xiàn)的CNN在MINIT數(shù)據(jù)集上效果還不錯,但是還有一些bug,因?yàn)樽罱容^忙,先把之前做的總結(jié)一下,以后再繼續(xù)優(yōu)化。卷積神經(jīng)網(wǎng)絡(luò)CNN是DeepLearning的一個重要算法,在很多應(yīng)

2、用上表現(xiàn)出卓越的效果,[1]中對比多重算法在文檔字符識別的效果,結(jié)論是CNN優(yōu)于其他所有的算法。CNN在手寫體識別取得最好的效果,[2]將CNN應(yīng)用在基于人臉的性別識別,效果也非常不錯。前段時間我用BP神經(jīng)網(wǎng)絡(luò)對手機(jī)拍照圖片的數(shù)字進(jìn)行識別,效果還算不錯,接近98%,但在漢字識別上表現(xiàn)不佳,于是想試試卷積神經(jīng)網(wǎng)絡(luò)。1、CNN的整體網(wǎng)絡(luò)結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)是在BP神經(jīng)網(wǎng)絡(luò)的改進(jìn),與BP類似,都采用了前向傳播計(jì)算輸出值,反向傳播調(diào)整權(quán)重和偏置;C

3、NN與標(biāo)準(zhǔn)的BP最大的不同是:CNN中相鄰層之間的神經(jīng)單元并不是全連接,而是部分連接,也就是某個神經(jīng)單元的感知區(qū)域來自于上層的部分神經(jīng)單元,而不是像BP那樣與所有的神經(jīng)單元相連接。CNN的有三個重要的思想架構(gòu):局部區(qū)域感知權(quán)重共享空間或時間上的采樣局部區(qū)域感知能夠發(fā)現(xiàn)數(shù)據(jù)的一些局部特征,比如圖片上的一個角,一段弧,這些基本特征是構(gòu)成動物視覺的基礎(chǔ)[3];而BP中,所有的像素點(diǎn)是一堆混亂的點(diǎn),相互之間的關(guān)系沒有被挖掘。CNN中每一層的由多

4、個map組成,每個map由多個神經(jīng)單元組成,同一個map的所有神經(jīng)單元共用一個卷積核(即權(quán)重),卷積核往往代表一個特征,比如某個卷積和代表一段弧,那么把這個卷積核在整個圖片上滾一下,卷積值較大的區(qū)域就很有可能是一段弧。注意卷積核其實(shí)就是權(quán)重,我們并不需要單獨(dú)去計(jì)算一個卷積,而是一個固定大小的權(quán)重矩陣去圖像上匹配時,這個操作與卷積類似,因此我們稱為卷積神經(jīng)網(wǎng)絡(luò),實(shí)際上,BP也可以看做一種特殊的卷積神經(jīng)網(wǎng)絡(luò),只是這個卷積核就是某層的所有權(quán)重

5、,即感知區(qū)域是整個圖像。權(quán)重共享策略減少了需要訓(xùn)練的參數(shù),使得訓(xùn)練出來的模型的泛華能力更強(qiáng)。采樣的目的主要是混淆特征的具體位置,因?yàn)槟硞€特征找出來后,它的具體位置已經(jīng)不重要了,我們只需要這個特征與其他的相對位置,比如一個“8”,當(dāng)我們得到了上面一個“o“時,我們不需要知道它在圖像的具體位置,只需要知道它下面又是一個“o”我們就可以知道是一個8了,因?yàn)閳D片中“8“在圖片中偏左或者偏右都不影響我們認(rèn)識它,這種混淆具體位置的策略能對變形和扭曲

6、的圖片進(jìn)行識別。CNN的這三個特點(diǎn)是其對輸入數(shù)據(jù)在空間(主要針對圖像數(shù)據(jù))上和時間(主要針對時間序列數(shù)據(jù),參考TDNN)上的扭曲有很強(qiáng)的魯棒性。CNN一般采用卷積層與map與上層的所有map都關(guān)聯(lián),如上圖的S2和C3,即C3共有612個卷積核,卷積層的每一個特征map是不同的卷積核在前一層所有map上作卷積并將對應(yīng)元素累加后加一個偏置,再求sigmod得到的。還有需要注意的是,卷積層的map個數(shù)是在網(wǎng)絡(luò)初始化指定的,而卷積層的map的大

7、小是由卷積核和上一層輸入map的大小決定的,假設(shè)上一層的map大小是nn、卷積核的大小是kk,則該層的map大小是(nk1)(nk1),比如上圖的2424的map大小24=(2851)。斯坦福的深度學(xué)習(xí)教程更加詳細(xì)的介紹了卷積特征提取的計(jì)算過程。圖33.3采樣層(采樣層(subsamplingPooling):采樣層是對上一層map的一個采樣處理,這里的采樣方式是對上一層map的相鄰小區(qū)域進(jìn)行聚合統(tǒng)計(jì),區(qū)域大小為scalescale,有

8、些實(shí)現(xiàn)是取小區(qū)域的最大值,而ToolBox里面的實(shí)現(xiàn)是采用22小區(qū)域的均值。注意,卷積的計(jì)算窗口是有重疊的,而采用的計(jì)算窗口沒有重疊,ToolBox里面計(jì)算采樣也是用卷積(conv2(AKvalid))來實(shí)現(xiàn)的,卷積核是22,每個元素都是14,去掉計(jì)算得到的卷積結(jié)果中有重疊的部分,即:圖44、反向傳輸調(diào)整權(quán)重反向傳輸過程是CNN最復(fù)雜的地方,雖然從宏觀上來看基本思想跟BP一樣,都是通過最小化殘差來調(diào)整權(quán)重和偏置,但CNN的網(wǎng)絡(luò)結(jié)構(gòu)并不像

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論