多模態(tài)特征融合和變量選擇的視頻語義理解.pdf_第1頁
已閱讀1頁,還剩137頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、隨著計算機技術及互聯(lián)網(wǎng)應用的迅速發(fā)展,多媒體數(shù)據(jù)特別是視頻數(shù)據(jù)呈海量趨勢增長,如何有效存儲、管理、傳輸、檢索和使用這些多媒體數(shù)據(jù),是擺在人們面前巨大的挑戰(zhàn)和亟待解決的研究問題。視頻數(shù)據(jù)蘊含了豐富的語義,同時視頻又是時序數(shù)據(jù),視頻中存在圖像、音頻和文本三種媒質數(shù)據(jù),并呈現(xiàn)時序關聯(lián)共生特性。本文針對視頻數(shù)據(jù)中多種模態(tài)之間的時序關聯(lián)特性,通過特征融合和變量選擇來進行視頻語義分析與理解。
   在視頻語義信息理解和挖掘中,充分利用圖像、

2、音頻和文本等多模態(tài)媒質之間的交互關聯(lián)是非常重要的研究方向。考慮到視頻的多模態(tài)和時序關聯(lián)共生特性,提出了一種基于多模態(tài)子空間相關性傳遞的語義概念檢測方法來挖掘視頻的語義信息。該方法對所提取視頻鏡頭的多模態(tài)底層特征,根據(jù)共生數(shù)據(jù)嵌入和相似度融合進行多模態(tài)子空間相關性傳遞而得到鏡頭之間的相似度關系,接著通過局部不變投影對原始數(shù)據(jù)進行降維以獲得低維語義空間內的坐標,再利用標注信息訓練分類模型,從而可對訓練集外的測試數(shù)據(jù)進行語義概念檢測,實現(xiàn)視頻

3、語義信息挖掘。實驗表明這一方法有較高的準確率。
   傳統(tǒng)視頻表達所采用的向量模型除了會產(chǎn)生高維向量而導致“維度災難”問題外,同時在降維過程中,由于特征向量過高的維度及訓練樣本的數(shù)據(jù)不足,將不同類型特征進行拼合會引起“過壓縮”問題,以致丟失大量信息。另外,不同類型特征通過簡單向量拼接也在一定程度上減弱或忽略了視頻中這些多種模態(tài)特征之間的時序關聯(lián)共生性。為了解決這一問題,提出了一種基于高階張量表示的視頻語義分析與理解框架。在這個框

4、架中,視頻鏡頭首先被表示成由視頻中所包含的文本、視覺和聽覺等多模態(tài)數(shù)據(jù)構成的3階張量;其次,基于此3階張量表達及視頻的時序關聯(lián)共生特性設計了一種子空間嵌入降維方法,稱為“張量鏡頭”;由于半監(jiān)督學習從已知樣本出發(fā)能對特定的未知樣本進行學習和識別,最后在這個框架中提出了基于“張量鏡頭”的直推式支持張量機算法以及兩種基于主動學習的后精化處理策略,其不僅保持了張量鏡頭所在的流形空間的本征結構,而且能將訓練集合外數(shù)據(jù)直接映射到流形子空間,同時充分

5、利用未標記樣本改善分類器的學習性能。實驗結果表明本方法能有效地進行視頻鏡頭的語義概念檢測。
   為了更加有效利用標記樣本,基于壓縮感知和稀疏表示理論,結合稀疏表達、非負矩陣分解和監(jiān)督學習,提出了基于(非負)組稀疏表示的分類方法對圖像和視頻進行分類思路。其基本思想是將測試樣本表示為訓練樣本的加權線性組合:即在非負ι1正則化因子約束下,對每個訓練樣本求取一個回歸系數(shù),同時每一類別也求取加權系數(shù),使得在訓練過程中能基于稀疏系數(shù)對類別

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論