視覺媒體語義自動提取關鍵技術研究.pdf_第1頁
已閱讀1頁,還剩123頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、近幾年來,隨著計算機和網(wǎng)絡技術的發(fā)展,數(shù)字化視頻與圖像信息越來越多的涌現(xiàn),基于多媒體信息服務的信息時代正在向我們走來。人們對視頻和圖像等視覺媒體內(nèi)容的需求也越來越多,越來越廣泛。這就需要行之有效的技術手段來滿足用戶的各種需求。而“語義鴻溝”是橫在人與計算機和諧交互中的一個重要障礙,這是由于人的大腦對視覺媒體的評判標準和計算機系統(tǒng)對視覺媒體的評判標準存在著很大差異。雖然目前針對視覺媒體的語義分析和理解有了很多研究,但這一倍受關注的技術還遠

2、遠不能滿足用戶的普遍需求。他們需要利用更多自動提取的語義信息。 本文對視覺媒體語義自動提取中的幾項關鍵技術進行了研究,提出了語義提取的四層技術框架,即對象語義層、場景語義層、知識及情感語義層和語義應用層,并分別研究了對象檢測、場景分類、高級語義概念提取和基于本體的語義應用等多項關鍵技術。由于想找到一條普遍通用的語義提取技術是非常困難的,因此往往針對給定應用和利用專業(yè)領域知識對特定的視覺媒體內(nèi)容采取各個擊破的策略來分析和自動理解。

3、體育視頻的分析和理解由于具有廣泛的用戶群和巨大的市場潛力而成為近幾年來的一個熱門研究方向,而隨著北京奧運會的臨近,體育視頻的語義分析和理解對中國具有更強的現(xiàn)實意義。另一方面,通過計算機技術對數(shù)字化藝術圖像進行分析,并提取它們類別、風格、以及包含的內(nèi)容等語義信息是一個非常重要而且迫切的問題,正逐漸獲得越來越多的關注,國畫是中華藝術的瑰寶,對國畫等數(shù)字化藝術圖像的研究也是一個重要的問題。因此本文針對視頻和圖像這兩種視覺媒體,分別研究了體育視

4、頻和藝術圖像中的語義提取技術。最后還給出了夜景圖像的場景分類方法,該技術也具有重要的應用價值。具體來說,論文主要的研究成果包括: 1)首先對視覺媒體的語義自動提取的系統(tǒng)框架進行了宏觀分析,這是必要的,一方面可以對整個問題有個全局的認識,另一方面可以指導我們實現(xiàn)具體的語義提取技術。給出其中所包含的各個層次的語義信息;并對視覺媒體語義提取的 應用框架和解決方案分別進行了系統(tǒng)分析。 2)針對體育視頻提出了一個魯棒的球場對象分

5、割檢測方法。在很多種體育視頻的自動分析中,球場區(qū)域起著至關重要的基礎性作用,許多語義線索可以在球場分割結果的基礎上獲取。采用高斯混合模型(GMMs)為球場區(qū)域建立顏色模型 這是由于GMMs可以對復雜的,非線性的顏色分布進行建模,從而在進行球場區(qū)域的像素檢測時具有足夠的通用性。經(jīng)過高斯混合模型的像素檢測過程之后,采用區(qū)域分析方法把檢測的像素連成區(qū)域,區(qū)域分析主要包括形態(tài)學的方法和區(qū)域增長的方法,這樣得到最終的分割結果。實驗證明,本文提出的

6、方法對于不同的體育視頻均能有效地實現(xiàn)球場區(qū)域的檢測。論文還研究了體育視頻場景語義分類的技術。針對足球體育視頻提出了三層分類框架,共九種場景畫面。并利用球場分割的結果所得到的顏色特征,以及形狀和邊緣等特征,從圖像底層語義的角度分析各個場景畫面之間的不同之處。由于可利用的訓練數(shù)據(jù)相對較少,利用支持向量機(SVM)作為分類器,它具有較好的推廣能力。本文提出 的分類方法可以直接用在語義標注,也可被用來進行更高級的語義分析。比賽形勢的分析對于體育

7、專業(yè)人士和長期的體育愛好者來說是十分有幫助的,這是一個較新的方向,少有人涉及。對于給定的視頻序列,將利用球場分割的結果 進行球員分析以及利用攝像機運動估計進行球場變化分析。并利用這兩方面的信息為比賽形式建模。從而判定哪個球隊在這段時間內(nèi)更占優(yōu)勢一些。這樣就可以對鏡頭進行自動語義標注,從而利于自動的語義視頻檢索,也可以用來分析整個比賽。 3)國畫圖像是中華藝術的瑰寶。本文研究了國畫圖像的檢測算法。使用了三個低級特征來實現(xiàn)這個高級

8、的語義提取問題,分別為:顏色直方圖、顏色一致性向量和自相關紋理特征。檢測采用決策樹與支持向量機相結合的方法來實現(xiàn),并采用支持向量機作為主分類器。在一個中等規(guī)模的數(shù)據(jù)集上的正確檢測率為94.85%。國畫基本上可以分為工筆、寫意兩大類。為了區(qū)分這兩種國畫,提出一種新的圖像特征:邊緣大小直方圖。這個特征反映了圖像邊緣的稀疏程度。使用支持向量機作為國畫圖像檢測和分類的主要分類器,并采用顏色、紋理和新提出的邊緣特征,最終得到了較好的分類結果。

9、 4)利用本體來進行多媒體的語義理解受到了越來越多的關注。文本針對藝術圖像建立了視覺本體;還針對藝術圖像提出了圖像的非寫實語義的概念。建立的本體包括藝術圖像各個方面的語義概念,從而可使用戶從各個角度查找需要的視覺信息。本體中的語義概念可以自動提取。最終目標是使得用戶方便的根據(jù)語義查找圖像,從而縮小“語義鴻溝”。 5)夜景圖像在數(shù)字圖像尤其是家庭照片或旅游圖像中占有相當?shù)谋壤R咕皥D像一般由比較黑暗的背景區(qū)域和非常明亮的前景區(qū)

10、域組成。另一方面,由于夜景圖像在不同的地點不同的光照環(huán)境下拍攝,也往往呈現(xiàn)不同的外觀。本文針對夜景圖像的這些特點提出了一個基于高斯混合模型(GMMs)的圖像分類檢測算法;在實驗數(shù)據(jù)集上的分類結果為89.79%。 總之,本文的研究工作基于用戶迫切的應用需求和廣泛的應用前景而展開的,研究了圖像和視頻等視覺媒體中的不同層次的語義提取技術,重點為體育、藝術等多種視覺媒體形式的語義理解提供技術方法,從而為幫助用戶更好地獲取并使用他們感興趣

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論