版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、<p><b> 中文5600字</b></p><p> 出處:Neural Networks, 1993., IEEE International Conference on. IEEE, 1993: 1612-1617</p><p> 場景分析中的神經網絡視覺計劃表示</p><p> Representing Vis
2、ual Schemas in Neural Networks</p><p> for Scene Analysis</p><p> 概要:在神經網絡系統(tǒng)中把簡單場景中的對象識別作為任務的研究集中在兩個主要的問題上:第一個問題是利用有限的資源處理大量的輸入;第二個問題是表示和利用結構化的知識。第一個問題的出現(xiàn)是由于沒有一個實用的神經網絡可以同時高效地處理所有的可視化輸入。解決這個問題
3、的辦法是并行地處理比較小的輸入,并且連續(xù)地處理輸入的其他部分。為了能夠描述和翻譯收集來的前后相繼的信息,這個策略需要系統(tǒng)維護一個結構化的知識。</p><p> 被提議的系統(tǒng)VISOR由兩個主要的模塊組成。低層可視化模塊(Low-Level Visual Module)從可視化輸入中提取特征和位置信息。計劃模塊(Schema Module)把可能的對象的可視化知識編碼,并且為低層可視化模塊提供自上而下的信息,以
4、便把注意力集中在場景中互不相同的部分。通過和低層可視化模塊的協(xié)力合作,計劃模塊建立了一個對于收集到的前后相繼的可視化信息的全局一致的翻譯。</p><p><b> ?、?介紹</b></p><p> 考慮在簡單場景中對象識別的任務。一個場景分析系統(tǒng)不得不識別場景中的對象(比如一張弓和兩棵樹)并且識別出場景所描繪的到底是什么。在設計一個執(zhí)行以上所描述的功能的神經網
5、絡系統(tǒng)的過程中,我們遇到了兩個基本的問題:</p><p> 1 怎樣能使得一個固定的,有限的神經網絡能夠處理無限的信息?</p><p> 2 怎樣能使得一個神經網絡能夠表示和利用已有的結構化知識?</p><p> 實際上,在許多神經網絡應用領域我們都遇到了以上所描述的兩個問題,例如在語言理解和自然語言處理領域。這個研究的目的就是把場景分析作為一個具體的任
6、務,針對這些問題發(fā)展一些通用的方法。</p><p> 我們現(xiàn)在來考慮第一個問題:有限的處理資源。在實踐中,我們只可能建立一個擁有固定數量的輸入單元和內部處理單元的神經網絡。權重和行為擁有有限的精確度并且被限制在某個范圍之內。輸入單元的數量可能比場景的型號要小。盡管網絡可以一次捕捉一個場景的很大一部分,但是它不可能并行地處理所有的信息除非它有指數級的單元和線路。唯一可行的選擇是并行地處理視覺輸入的一個小部分,并
7、且相繼地處理這個場景的不同部分。這個場景同樣地應用在生物視覺系統(tǒng)中。</p><p> 因為網絡是固定的和有限的,它不可能為無限的輸入信息提供足夠的存儲空間。它應該為目前已經收集到的信息建立和維護一個局部的翻譯。基于已收集到的信息,它估計出輸入特征屬于某個已知對象的可能性。隨著更多的信息被接收,它加強或者削弱先前做出的估計。他不停地處理場景的其他部分直到收集夠足夠的信息來建立一個一致的翻譯。每個局部翻譯都和網絡
8、的一個穩(wěn)定的中間狀態(tài)相對應。</p><p> 采用這個策略的系統(tǒng),為了能做出翻譯,都需要一個在心理研究上通常被稱作計劃的內部模塊。因此第一個問題的解決方法需要讓神經網絡編碼計劃,或者更普通的,我們叫做結構化知識;也就是說,第一個問題的解決需要引用第二個問題。一個解決問題的辦法是在神經網絡中象征性地表示這樣的知識。這個方法在可以很好地使用于簡單場景,但是對于更為復雜的系統(tǒng)它沒有普遍的適應性。神經網絡并不擅長于直
9、接處理符號。但是,他們對特征提取,聯(lián)想,限制性滿足,模式分類和其它的一些模糊決定很在行。這些任務通過神經過程得到執(zhí)行,就象單元和網絡間的合作和競爭。</p><p> VISOR(Visual Schemas for Object Representation)是被設計用來在對象識別和場景分析領域解決上文所述的兩個基本問題的。簡化工作可是讓我們把精力放在核心問題上——計劃的學習和表示。在這個工程中要考慮的場景是
10、由對象組成的,而對象是由直線和一些簡單的圖形(例如矩形和三角形)組成的。描述對象和場景的知識包括四個位置關系(左,右,上,下)和一個層級關系(屬于)。這樣的知識可以很方便地被編碼成地圖和單元之間的聯(lián)系。除去簡化任務,這個研究的目的是得到可以適用于更復雜的場景和任務的通用的解決方法。</p><p><b> Ⅱ 相關工作</b></p><p> ?。襲melhar
11、t et al 提出了一個通用的方法,可以用PDP模式編碼概念上的計劃。計劃的單個組件,比如沙發(fā),床,浴缸和洗手間被表示成一個網絡內的不同單元。兩個單元之間聯(lián)系的權重表示這兩個組件在一個計劃內出現(xiàn)的可能性,并且網絡的行為模式把一個計劃的實例編碼。這個網絡不編碼計劃間的層級關系。</p><p> Hinton 描述了三種表示層級知識的方法。其中第二中方法和VISOR中曾經用過的一種方法很相似。網絡里的很多單元被
12、組織成不同的層。層級越高,該單元所表示的對象也就越復雜。表示對象組件的較低層次的單元被連接到表示對象本身的較高層次的單元。</p><p> Norman和Shallice的認識模型偏重于對計劃的激活和控制。在這個模型,指定域的行為計劃和思考計劃可以被獨立地激活。將要被運行的計劃的一個小的子集是由兩個被稱作爭論調度(Contention Scheduling)和監(jiān)督注意系統(tǒng)(Supervisory Attent
13、ional System)的不同的進程選出的。爭論調度是一個指定域的進程,類似于傳統(tǒng)人工智能系統(tǒng)中的沖突解決。它通過指定域的簡單標準來選取計劃。監(jiān)督注意系統(tǒng)是一個在每個域上運行計劃的通用規(guī)劃系統(tǒng)。它通過偏置爭論調度的操作來控制計劃的激活。VISOR中計劃的激活和控制類似于爭論調度進程。</p><p> ?、蟆ISOR的成就</p><p> 在低層VISOR是把“干什么”和“在哪里”
14、分開處理的(如圖1所示)。它由低層視覺模塊和計劃模塊組成。低層視覺模塊(圖1b)一次處理場景中的一個位置上的信息,提取出這個位置的特征信息(線,矩形或者三角形)。作為輸出,特征池(Feature Cells)表明了低層視覺模塊判斷出現(xiàn)某個確定特征的可能性(圖2)。相對關系圖(The Relative Position Maps)用不同的比例編碼這些特征的相對位置。舉個例子,假設部分場景包含一個弓和兩棵樹(圖1a)。同樣假設現(xiàn)在系統(tǒng)的注意
15、力集中在弓的三角形的底部。在精確模式,相對關系圖識別出三角形位于兩個矩形之上,并在圖的頂端給出一個蜂值回應(圖1d)。在粗糙模式下,相對關系圖識別出組成弓的特征黑點位于組成兩棵樹的黑點的中間,并在圖的中間就給出一個峰值回應(圖1e)。在比視網膜大的模式中,必須考慮眼球的位置。</p><p> 計劃模塊(圖1a)維護計劃的層次,整合連續(xù)的輸入信息,決定下一個要處理的位置。它由兩個主要的神經網絡組成:計劃層次網(
16、Schema Hierarchy Net)和變化選擇網(Shift Selection Net)。計劃層次網是計劃表示網的一個多層網絡,或者可以說是計劃網的簡明模式(圖2)。一個計劃網由四個主要的部分組成:輸出單元,子計劃行為圖(Sub_schema Activity Map),當前位置圖(the </p><p> Current Position Map)和可能位置圖(the Potential Posit
17、ion Maps)。在詳細地描述這些組件之前,我們先來看看在計劃層次網中計劃是怎么樣表示的。</p><p> 計劃網中的每一層都對應于計劃層次中的一個層。一個計劃網既可以作為一個高層計劃的子計劃也可以作為一個低層計劃的父計劃。第一層計劃的子計劃由特征池(the Feature Cells)組成。SHN的連通性編碼計劃之間的局部和整體的關系。舉個例子,我們考慮弓的表示。如圖2b所示,一張弓由三個部分組成:一個三
18、角形的頂,和兩個矩形的柱。弓上有層次感的格子在弓計劃網絡中表示子計劃行為圖(the Sub_schema Activity Map)。黑點表示圖中組件的位置。例如,三角形在弓的中上部。和每個黑點對應的,在特征池和SAM單元之間有一條連線。連線表示在SAM單元的位置特征是弓計劃的一個組件。</p><p> SAM單元的行為表示子計劃出現(xiàn)在場景中的可能性。這些行為可能隨著從場景中提取出的信息不斷增多而改變。SAM
19、可以有效地編碼一個計劃當前信息的摘要。</p><p> 除了在SAM中被編碼的動態(tài)信息外,保留計劃的靜態(tài)結構信息是很有必要的,這樣系統(tǒng)可以決定下一步要集中處理什么。這樣的信息存儲在可能位置圖(Potential Position Map)。PPM單元中的一個高級動作表明一個子計劃被期望發(fā)生于與之對應的位置。</p><p> 當前處理的位置被存儲在當前位置圖(the Current
20、Position Map)中,被圖中單個活躍單元的位置編碼。每個CPM單元都以乘法的關系連接到SAM單元的相應位置上。如果一個CPM單元正在運行,則相應的SAM單元的行為是最新的。否則,SAM單元的行為則會保持不變。換句話說,只有配套當前位置的子計劃的行為才可以向上傳播。</p><p> 一個計劃與輸入匹配到底是必然還是偶然,是在計劃輸出單元的行為中被總結的。除了從計劃自己的SAM單元中自下而上的聯(lián)系外,輸出
21、單元接受從父計劃</p><p> 的SAM單元中自上而下的聯(lián)系(圖2)。如果一個較高層的計劃以高偶然性匹配一個輸入對象,那么它的子計劃也和對象的組件匹配;因此建立自上而下的反饋。在計劃的輸出單元間仍然有一些互相禁止的聯(lián)系允許計劃在翻譯輸入是產生競爭。</p><p> 在場景中特定位置的信息被處理之后,VISOR將會把注意力集中到一個新的位置上。變換選擇網絡(The Shift Se
22、lecting Net)決定下一個位置(圖1c)。就像在下一節(jié)中我們要詳細描繪的那樣,它根據計劃的行為和計劃想要的變換向量來做出決定。</p><p> IV VISOR操作</p><p> 在場景分析進程開始的時候,所有的計劃都被重置到他們的開始狀態(tài)。也就是說,他們所有的CPM單元都是開啟的(沒有當前注意位置),并且他們的SAM單元的行為是0(沒有發(fā)現(xiàn)任何東西)。在每次注意力調整之
23、后,計劃模塊處理從LLVM接收到的特征和位置信息,處理過程要經過四個主要的階段:(1)在計劃內設定當前位置,(2)更新計劃的動作,(3)選定計劃的下個處理位置,(4)選定一個位置做注意力轉換。讓我們大概瀏覽一下完整的處理過程。</p><p> 設定當前位置。當LLVM把注意力已經轉移到場景中選定的位置之后,計劃就更新自己的當前位置信息。如果一個計劃不準備做任何事情,也就是所,它的CPM單元都是關閉的,它的當前
24、位置被選定為RPM的峰值位置(圖2)。如果CPM單元的其中一個是開啟的,則當前位置在這個方向上變換,并且方向決定于被編碼的從SSN收到的變換向量的數量。如果變換的數量超過了CPM的存儲容量,則計劃將會被首先重置為初始狀態(tài),并且它的當前位置被設定為RPM的峰值位置。</p><p> 計劃激活。在這個階段,其中一個CPM單元是活動的,并且它的當前位置就是計劃的當前位置。SAM單元在相應圖位置的行為也被更新。其他S
25、AM單元的行為依舊保持不變。計劃的輸出單元的行為也跟著計劃與輸入的匹配程度而改變。如果它匹配的很好,它的活性會因為SAM活性的增加而增加;另外,它的活性也會因為計劃間的相互抑制而減弱。一個計劃的行為會依次反饋給它的子計劃,并且推進他們的行為。這個反饋信號符合自上而下的展望:如果一個計劃和一個對象匹配的很好,則它的子計劃也會匹配于對象的組件。行為的更新是異步的,在多個循環(huán)中逐漸地達到穩(wěn)定。</p><p> 下個
26、可能位置的選定。在行為穩(wěn)定之后,每個計劃都會選定一個位置,他們期望這個位置會成為整個系統(tǒng)的注意焦點。計劃可以從它選定的位置上發(fā)現(xiàn)可以增加它的活性的特征。計劃的選擇基于以下的標準:</p><p> 選擇一個子計劃期望的位置,也就是在PPM單元中具有高活性的位置。</p><p> 選擇一個具有低SAM活性的位置。在實際的網絡中,單元的活性是有限的,被限制在某個范圍之內。在增加計劃活性的
27、過程中,把焦點放在具有高SAM活性的位置上是沒有效率的。</p><p> 選擇一個距離當前位置最近的位置,這樣可以使轉換代價達到最小</p><p> 選擇好的位置會被編碼成變換向量,然后發(fā)送給SSN。</p><p> 下個實際位置的選定。SSN把從所有計劃網那里收到的變換向量作為輸 入,并且從中選擇一個采用。一個高度活躍的計劃傾向于選擇一個小的變換。這
28、個標準支持按照最佳匹配的計劃進行圖像輸入的翻譯,并且使得焦點轉移量達到最小。最后,選定的變換向量被傳播給所有的計劃和LLVM。</p><p> V VISOR的試驗結果</p><p> 三個關于對象識別和場景分析的的試驗要被演示。第一個試驗將演示對象的完美實例的識別,第二個試驗是一個歪曲的實例,第三個試驗是一個完整的場景。所有的計劃都在SHN被手工編碼。SHN的第一層由弓、房
29、子和樹的計劃組成(圖3a-c)。其中,弓和房子的計劃是非常相似的。兩個都有三角形的頂,并且很可能把弓的矩形柱和房子的正方形窗子混淆。第二層的計劃(在第三個試驗中使用)是森林,公園,郊區(qū)和城市(圖3d-g)。這些計劃也同樣非常相似。例如,如果場景是森林,或者公園,或者郊區(qū),VISOR從左向右掃描,在最左邊的對象被識別之前,它是不可能消除歧義的。注意到這些第二層計劃并不是這些場景的通用表示。它們被設計用來測試在極度不清楚的情況下VISOR的
30、性能。</p><p> 在第一個試驗中,一個房子被輸入到VISOR。圖4(a)VISOR在處理場景時第一層計劃的行為的一個片斷。每次每步的焦點位置被顯示在圖4(b)中。系統(tǒng)被故意設置成在清晰的狀態(tài)下啟動——它把焦點放在房子的三角形屋頂上。起初,VISOR認為對象很可能是張弓。在第五步之后,房子計劃的活性增加并且超過了弓計劃,VISOR達到了最終的穩(wěn)定狀態(tài),并且得出了結論,這張圖繪制的是個房子。</p&g
31、t;<p> 第二個試驗說明了扭曲圖像的處理過程。兩個變異的房子圖形被輸入VISOR。第一張圖中的房子有個平坦的屋頂,第二張圖中的房子則沒有屋頂。在兩種情況</p><p> 下,VISOR都是從左邊的窗戶開始。圖5說明了兩種情況下計劃的活性。特征失真的效果在第二步當VISOR處理屋頂的時候最明顯。輸入的圖像和在計劃中表示的圖像差別越大,弓和房子的計劃的活性就越低。也就是說,VISOR對對象的身
32、份更加不確定。但是,在兩種情況下,VISOR都可以最終得出結論:輸入的物體最有可能是一座房子。</p><p> 在第三個試驗中,VISOR接收到一副和郊區(qū)模式非常匹配的郊區(qū)圖片。VISOR被設置為從最右邊的三角形樹開始(圖3)。注意到這個陳述是很模糊的,這是因為森林,公園和郊區(qū)的模式都有一棵樹在最右邊。在第二步,最右邊的樹被識別(圖6)。在第五步,中間的樹被識別。這時,關于中間那棵樹的詳細信息被存儲在樹模式的
33、SAM中,但是關于最右邊的那棵樹的詳細信息卻丟失了。樹模式的先前的行為(對應于最右邊的樹)被存儲在第二層模式的SAM中。在前六步中,VISOR步不能確定輸入場景是郊區(qū),公園和森林中的哪一個。在第七步,VISOR把焦點放在房子的三角形屋頂上。它認為在左邊的遠端的事物最象一張弓,并且整張圖片最象是一個公園。最終,歧義產生在第十三步,在處理完房子的墻之后。這次,第一層的房子模式最為活躍,這表明最后處理的事物是個房子。因此,郊區(qū)模式成為第二層最
34、活躍的模式。一旦行為穩(wěn)定,就沒有必要再把焦點</p><p> 集中在場景的其它部分了,并且進程結束。</p><p><b> VI 結論</b></p><p> 這個研究的目的是發(fā)展神經網絡中圖像模式的表示和學習模式。表示模式支持前后相繼的信息的整合,這樣可以使得場景分析在有限的處理資源的情況下得以完成。系統(tǒng)簡單地以圖和合作競爭網的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 外文翻譯--場景分析中的神經網絡視覺計劃表示(有word版)
- 場景分析中的神經網絡視覺計劃表示.doc
- 場景分析中的神經網絡視覺計劃表示.pdf
- 外文翻譯--場景分析中的神經網絡視覺計劃表示(有word版)
- 場景分析中的神經網絡視覺計劃表示.pdf
- 場景分析中的神經網絡視覺計劃表示.doc
- 外文翻譯--場景分析中的神經網絡視覺計劃表示(有word版).pdf
- 外文翻譯--場景分析中的神經網絡視覺計劃表示(有word版).pdf
- 外文翻譯(中文)---神經網絡用于圖像壓縮
- 人工神經網絡外文翻譯
- 外文翻譯---神經網絡概述
- 外文翻譯---人工神經網絡
- 基于神經網絡的中文詞表示方法研究.pdf
- 外文翻譯--RBF 神經網絡.doc
- 外文翻譯--RBF 神經網絡.doc
- 外文翻譯---人工神經網絡在短期負荷預測中的應用
- 外文翻譯---人工神經網絡在短期負荷預測中的應用
- 外文翻譯---人工神經網絡在短期負荷預測中的應用
- 畢業(yè)論文外文翻譯-神經網絡概述
- 人工神經網絡畢業(yè)論文外文翻譯
評論
0/150
提交評論