圖像解譯數(shù)據(jù)庫(kù)與物體識(shí)別的計(jì)算機(jī)理研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩144頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、有體系地建立一個(gè)大型的人工標(biāo)注圖像/視頻解譯標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),對(duì)計(jì)算機(jī)視覺(jué)領(lǐng)域的研究工作來(lái)說(shuō)至關(guān)重要。基于這個(gè)目的,我們開(kāi)發(fā)了一個(gè)交互式的標(biāo)注系統(tǒng)(Interactive Image Parser,簡(jiǎn)稱為IIP),其中每個(gè)功能模塊對(duì)應(yīng)一些特定的標(biāo)注任務(wù)。
   合理的組合這些功能模塊,可以完成各種復(fù)雜的視覺(jué)信息標(biāo)注任務(wù)。對(duì)于一張自然場(chǎng)景圖像,通過(guò)IIP以場(chǎng)景層-物體層-中低層這種分層解譯的方式,提供全面豐富的視覺(jué)標(biāo)注信息,其中大部分信

2、息都是其它數(shù)據(jù)庫(kù)所沒(méi)有的。此外,在與或圖知識(shí)框架下將這些視覺(jué)信息統(tǒng)一組織起來(lái)。
   基于上述圖像解譯數(shù)據(jù)庫(kù),我們提出了一個(gè)I2T(Image Parsing to TextGeneration)的框架,將圖像/視頻內(nèi)容轉(zhuǎn)化為對(duì)應(yīng)的自然語(yǔ)言描述。I2T 框架將比較困難的基于內(nèi)容的圖像/視頻檢索任務(wù)轉(zhuǎn)換為比較簡(jiǎn)單的文本搜索任務(wù)。該框架分為三個(gè)部分:(I)圖像解譯數(shù)據(jù)庫(kù),通過(guò)圖像解譯引擎IIP 將輸入圖像/視頻幀分解為各種對(duì)應(yīng)的視覺(jué)

3、模式,即將一個(gè)場(chǎng)景表示成為解譯圖,這一點(diǎn)在本質(zhì)上類似于將自然語(yǔ)言解析為單個(gè)的句子。(ii)通過(guò)網(wǎng)絡(luò)本體語(yǔ)言將解譯圖轉(zhuǎn)化為語(yǔ)義表達(dá)。(iii)文本生成引擎將語(yǔ)義表達(dá)轉(zhuǎn)化為自然語(yǔ)言描述的文本報(bào)告。上述框架依賴于兩個(gè)知識(shí)庫(kù)。第一個(gè)是視覺(jué)知識(shí)庫(kù),為圖像解譯提供至頂向下的指導(dǎo),作為圖像本體論服務(wù)于解譯圖向語(yǔ)義表達(dá)的轉(zhuǎn)換。視覺(jué)知識(shí)庫(kù)的核心是與或圖表達(dá),視覺(jué)元素字典包括像素、邊、拐角、部分、物體、場(chǎng)景以及定義這些視覺(jué)元素間的組合、空間、時(shí)間、功能等的

4、關(guān)系。第二個(gè)知識(shí)庫(kù)是一個(gè)通用的知識(shí)庫(kù),通過(guò)語(yǔ)義網(wǎng)將多個(gè)不同專業(yè)領(lǐng)域的本體論相互連接起來(lái),進(jìn)一步地豐富了視覺(jué)內(nèi)容的語(yǔ)義表達(dá)。最后以監(jiān)控視頻為例,通過(guò)I2T 框架推演出視頻事件,并產(chǎn)生視頻監(jiān)控場(chǎng)景的自然語(yǔ)言描述?;诤8酆统鞘袌?chǎng)景的實(shí)驗(yàn)表明了本文方法的可行性。
   在圖像解譯數(shù)據(jù)庫(kù)強(qiáng)大的數(shù)據(jù)支持下,我們通過(guò)定量的方法評(píng)估與或圖分層模型中自底向上/自頂向下計(jì)算過(guò)程的信息量貢獻(xiàn)。對(duì)于與或圖中的任一節(jié)點(diǎn)A 定義了三種計(jì)算推理過(guò)程:α過(guò)程

5、基于物體實(shí)例的圖像特征識(shí)別;β過(guò)程通過(guò)自底向上的方式綁定孩子節(jié)點(diǎn)來(lái)識(shí)別A;γ過(guò)程通過(guò)父節(jié)點(diǎn)自頂向下預(yù)測(cè)A。我們采用特定的方法將這三個(gè)計(jì)算過(guò)程隔離開(kāi)來(lái),通過(guò)算法和心理學(xué)實(shí)驗(yàn)測(cè)試評(píng)估各過(guò)程的信息量貢獻(xiàn)。最后在貝葉斯框架下,將α、β、γ過(guò)程顯式地結(jié)合起來(lái)進(jìn)行推理計(jì)算?;谥械蛯右曈X(jué)元素和高層視覺(jué)中的人臉、車的實(shí)驗(yàn)結(jié)果表明:(I)α、β、γ過(guò)程的有效性依賴于圖像中物體實(shí)例的尺度大小和遮擋情況;(ii)一般情況下高層視覺(jué)物體的α過(guò)程的貢獻(xiàn)最大,對(duì)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論