數(shù)字視頻中的文本分割的研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩116頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、  隨著在多媒體數(shù)據(jù)制造、存儲(chǔ)與傳播方面取得的重大技術(shù)進(jìn)步,數(shù)字視頻在各個(gè)領(lǐng)域的應(yīng)用也越來(lái)越廣泛,已經(jīng)成為大多數(shù)人日常生活中經(jīng)常遇到的一部分,能夠從大量的視頻資料中找到想要的信息成為人們迫切的要求。數(shù)字圖像和視頻也是數(shù)字圖書(shū)館計(jì)劃中的核心內(nèi)容。為了構(gòu)建數(shù)字圖書(shū)館,要求將各種信息數(shù)字化,以便存儲(chǔ),檢索和操作。如何管理和檢索海量的視頻數(shù)據(jù)已經(jīng)成為近10年來(lái)全球?qū)W術(shù)界和工業(yè)界一個(gè)富有挑戰(zhàn)性的熱門(mén)話題之一。近年來(lái)對(duì)視頻檢索系統(tǒng)的構(gòu)建已經(jīng)有了一些

2、研究。有的系統(tǒng)是基于低層特性的,如視頻中對(duì)象的形狀、區(qū)域的亮度、顏色、紋理、人物動(dòng)作描述、聲音特征,有的系統(tǒng)是基于高層特征的,如人臉檢測(cè)、說(shuō)話人識(shí)別、文本識(shí)別。其中從視頻中提取文本信息是比較受關(guān)注的一項(xiàng),也是建立索引的一個(gè)重要的來(lái)源。  文本是視頻中重要的內(nèi)容信息。視頻中文本的檢測(cè)和識(shí)別在視頻分析過(guò)程中起到很大的作用。文本可以作為視頻片斷的內(nèi)容標(biāo)識(shí)和索引,例如在新聞視頻中出現(xiàn)的新聞?wù)梢宰鳛樵摱涡侣剝?nèi)容的描述,用于新聞視頻資料的檢

3、索;文字可以作為視頻分段的依據(jù),例如播音員名字或演員表出現(xiàn)的地方,可以作為新聞視頻的開(kāi)始或影片的結(jié)束;文字可以作為視頻內(nèi)容重要程度的判斷依據(jù),例如出現(xiàn)醒目文字的幀,可以抽取出來(lái)作為對(duì)應(yīng)的視頻片斷的代表幀,或者在生成視頻摘要的過(guò)程中,出現(xiàn)醒目文字的部分,可以截取下來(lái)作為視頻摘要的一部分。所以對(duì)文字的分析和處理是視頻分析的重要內(nèi)容。而檢測(cè)視頻中文字的出現(xiàn)及其準(zhǔn)確位置,并將文字從復(fù)雜多變的背景中分割出來(lái),是視頻文字分析處理的基礎(chǔ)?! ≡谝曨l

4、中提取和識(shí)別文字,可以有許多應(yīng)用:從視頻中提取出來(lái)的文本可以作為它們的索引和注釋。例如對(duì)于一個(gè)關(guān)于籃球比賽的視頻,可以提取視頻中球員衣服上的球衣號(hào)碼、球員姓名、球隊(duì)名字作為注釋和索引。這和建立視頻中基于其他內(nèi)容的索引相比,如對(duì)象的形狀,計(jì)算代價(jià)要小得多。又如商業(yè)中,多媒體文檔的手工登記工作要消耗大量的人力。如果能夠自動(dòng)讀取商業(yè)多媒體檔案中的特定文本信息,那就可以節(jié)約不少人力資源?! ⊥瑨呙璩鰜?lái)的文件圖像中的文字的檢測(cè)與識(shí)別相比,視頻中

5、的文字的檢測(cè)與識(shí)別需要不同的方法。因?yàn)榍罢咭话憔哂袉我坏奈淖诸伾捅尘邦伾?,只需要一個(gè)簡(jiǎn)單的閾值就可以將文字與背景分開(kāi)。而視頻圖像中往往有多種噪聲成分,文字的背景大多處于運(yùn)動(dòng)狀態(tài),字與背景的顏色也經(jīng)常不單一,分辨率也比較低,如MPEG壓縮格式的視頻。要提取視頻中的文本,首先要對(duì)視頻進(jìn)行分析,找到包含文本的區(qū)域,還要用某些算法弱化背景,增強(qiáng)文本,然后才能交給文本識(shí)別模塊OCR(opticalcharacterrecognition)進(jìn)行識(shí)

6、別。多數(shù)OCR都要求以二值化圖像作為輸入;有些還要求特定的文檔格式,如新聞、期刊?! 囊曨l中提取標(biāo)題信息并不是一件簡(jiǎn)單的事情,和用OCR識(shí)別文檔圖像相比,從視頻中提取和識(shí)別標(biāo)題信息遇到了新的挑戰(zhàn)。首先,視頻中的標(biāo)題的背景一般都比較復(fù)雜,這使檢測(cè)變得更加困難。第二,為了避免遮擋視頻中的其他內(nèi)容,標(biāo)題中的字符一般都比較小,因而分辨率一般都比較低。因此視頻幀中的字符的質(zhì)量不適于直接使用一般的OCR系統(tǒng)進(jìn)行識(shí)別?! ”疚淖プ∫曨l文本分割的

7、幾個(gè)關(guān)鍵問(wèn)題,包括視頻鏡頭分割、視頻幀中的文本定位、連續(xù)多幀的視頻文本跟蹤、視頻文本增強(qiáng)、具體的視頻文本分割應(yīng)用(車(chē)牌識(shí)別系統(tǒng))展開(kāi)研究。  本文的主要?jiǎng)?chuàng)新如下:  (1)提出一種結(jié)合幀間直方圖差值和差分直方圖方差的視頻鏡頭分割算法,即一種基于數(shù)據(jù)融合的視頻鏡頭分割算法,通過(guò)實(shí)驗(yàn)以及和其它幾種算法的鏡頭分割結(jié)果的比較,證明提出的視頻鏡頭分割算法具有檢全率和檢準(zhǔn)率高的優(yōu)點(diǎn),為后續(xù)的鏡頭內(nèi)的文本定位、文本跟蹤等提供了良好的基礎(chǔ)?! ?

8、2)提出一種基于顏色邊緣與變換支持向量機(jī)TSVM的文本定位算法。首先根據(jù)文本的顏色邊緣特征進(jìn)行粗篩選,獲得文本候選區(qū);然后使用TSVM分類器進(jìn)行文本與非文本分類,實(shí)現(xiàn)文本區(qū)域定位與提取。該算法由于考慮了顏色邊緣和利用了TSVM分類器,不僅能夠分離灰度和背景差異較大的文本,還能分離灰度和背景接近,但顏色有差異的文本。試驗(yàn)證明該算法具有檢全率和檢準(zhǔn)率高,而且對(duì)文本的語(yǔ)言類型不敏感的優(yōu)點(diǎn)。變換支持向量機(jī)與普通的支持向量(SVM)相比,TSVM

9、方法所需的樣本量大大降低,它能有效地經(jīng)過(guò)小樣本數(shù)據(jù)集訓(xùn)練后,再進(jìn)行分類,減輕了手工采集訓(xùn)練樣本的負(fù)擔(dān)?! ?3)提出一種視頻中靜止和線性運(yùn)動(dòng)文本的跟蹤算法。該算法可以準(zhǔn)確跟蹤視頻中靜止和運(yùn)動(dòng)的文本,而且不必對(duì)每個(gè)視頻幀都進(jìn)行文本定位,從而大大提高了系統(tǒng)效率。實(shí)驗(yàn)證明該算法具有跟全率高,跟準(zhǔn)率高的優(yōu)點(diǎn)?! ?4)提出一種基于多幀的視頻文本增強(qiáng)算法。通過(guò)多幀分塊分析,可以有效去除復(fù)雜的背景,而且對(duì)噪聲干擾具有魯棒性,能夠大大提高視頻文本

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論