數(shù)字視頻中的文本分割的研究.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-10 格式：pdf 頁(yè)數(shù)：117 大?。?.51MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁(yè)，還剩116頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、　　隨著在多媒體數(shù)據(jù)制造、存儲(chǔ)與傳播方面取得的重大技術(shù)進(jìn)步，數(shù)字視頻在各個(gè)領(lǐng)域的應(yīng)用也越來(lái)越廣泛，已經(jīng)成為大多數(shù)人日常生活中經(jīng)常遇到的一部分，能夠從大量的視頻資料中找到想要的信息成為人們迫切的要求。數(shù)字圖像和視頻也是數(shù)字圖書(shū)館計(jì)劃中的核心內(nèi)容。為了構(gòu)建數(shù)字圖書(shū)館，要求將各種信息數(shù)字化，以便存儲(chǔ)，檢索和操作。如何管理和檢索海量的視頻數(shù)據(jù)已經(jīng)成為近10年來(lái)全球?qū)W術(shù)界和工業(yè)界一個(gè)富有挑戰(zhàn)性的熱門(mén)話題之一。近年來(lái)對(duì)視頻檢索系統(tǒng)的構(gòu)建已經(jīng)有了一些

2、研究。有的系統(tǒng)是基于低層特性的，如視頻中對(duì)象的形狀、區(qū)域的亮度、顏色、紋理、人物動(dòng)作描述、聲音特征，有的系統(tǒng)是基于高層特征的，如人臉檢測(cè)、說(shuō)話人識(shí)別、文本識(shí)別。其中從視頻中提取文本信息是比較受關(guān)注的一項(xiàng)，也是建立索引的一個(gè)重要的來(lái)源。　　文本是視頻中重要的內(nèi)容信息。視頻中文本的檢測(cè)和識(shí)別在視頻分析過(guò)程中起到很大的作用。文本可以作為視頻片斷的內(nèi)容標(biāo)識(shí)和索引，例如在新聞視頻中出現(xiàn)的新聞?wù)梢宰鳛樵摱涡侣剝?nèi)容的描述，用于新聞視頻資料的檢

3、索；文字可以作為視頻分段的依據(jù)，例如播音員名字或演員表出現(xiàn)的地方，可以作為新聞視頻的開(kāi)始或影片的結(jié)束；文字可以作為視頻內(nèi)容重要程度的判斷依據(jù)，例如出現(xiàn)醒目文字的幀，可以抽取出來(lái)作為對(duì)應(yīng)的視頻片斷的代表幀，或者在生成視頻摘要的過(guò)程中，出現(xiàn)醒目文字的部分，可以截取下來(lái)作為視頻摘要的一部分。所以對(duì)文字的分析和處理是視頻分析的重要內(nèi)容。而檢測(cè)視頻中文字的出現(xiàn)及其準(zhǔn)確位置，并將文字從復(fù)雜多變的背景中分割出來(lái)，是視頻文字分析處理的基礎(chǔ)?！　≡谝曨l

4、中提取和識(shí)別文字，可以有許多應(yīng)用：從視頻中提取出來(lái)的文本可以作為它們的索引和注釋。例如對(duì)于一個(gè)關(guān)于籃球比賽的視頻，可以提取視頻中球員衣服上的球衣號(hào)碼、球員姓名、球隊(duì)名字作為注釋和索引。這和建立視頻中基于其他內(nèi)容的索引相比，如對(duì)象的形狀，計(jì)算代價(jià)要小得多。又如商業(yè)中，多媒體文檔的手工登記工作要消耗大量的人力。如果能夠自動(dòng)讀取商業(yè)多媒體檔案中的特定文本信息，那就可以節(jié)約不少人力資源?！　⊥瑨呙璩鰜?lái)的文件圖像中的文字的檢測(cè)與識(shí)別相比，視頻中

5、的文字的檢測(cè)與識(shí)別需要不同的方法。因?yàn)榍罢咭话憔哂袉我坏奈淖诸伾捅尘邦伾?，只需要一個(gè)簡(jiǎn)單的閾值就可以將文字與背景分開(kāi)。而視頻圖像中往往有多種噪聲成分，文字的背景大多處于運(yùn)動(dòng)狀態(tài)，字與背景的顏色也經(jīng)常不單一，分辨率也比較低，如MPEG壓縮格式的視頻。要提取視頻中的文本，首先要對(duì)視頻進(jìn)行分析，找到包含文本的區(qū)域，還要用某些算法弱化背景，增強(qiáng)文本，然后才能交給文本識(shí)別模塊OCR(opticalcharacterrecognition)進(jìn)行識(shí)

6、別。多數(shù)OCR都要求以二值化圖像作為輸入；有些還要求特定的文檔格式，如新聞、期刊?！　囊曨l中提取標(biāo)題信息并不是一件簡(jiǎn)單的事情，和用OCR識(shí)別文檔圖像相比，從視頻中提取和識(shí)別標(biāo)題信息遇到了新的挑戰(zhàn)。首先，視頻中的標(biāo)題的背景一般都比較復(fù)雜，這使檢測(cè)變得更加困難。第二，為了避免遮擋視頻中的其他內(nèi)容，標(biāo)題中的字符一般都比較小，因而分辨率一般都比較低。因此視頻幀中的字符的質(zhì)量不適于直接使用一般的OCR系統(tǒng)進(jìn)行識(shí)別?！　”疚淖プ∫曨l文本分割的

7、幾個(gè)關(guān)鍵問(wèn)題，包括視頻鏡頭分割、視頻幀中的文本定位、連續(xù)多幀的視頻文本跟蹤、視頻文本增強(qiáng)、具體的視頻文本分割應(yīng)用(車(chē)牌識(shí)別系統(tǒng))展開(kāi)研究。　　本文的主要?jiǎng)?chuàng)新如下：　　(1)提出一種結(jié)合幀間直方圖差值和差分直方圖方差的視頻鏡頭分割算法，即一種基于數(shù)據(jù)融合的視頻鏡頭分割算法，通過(guò)實(shí)驗(yàn)以及和其它幾種算法的鏡頭分割結(jié)果的比較，證明提出的視頻鏡頭分割算法具有檢全率和檢準(zhǔn)率高的優(yōu)點(diǎn)，為后續(xù)的鏡頭內(nèi)的文本定位、文本跟蹤等提供了良好的基礎(chǔ)?！　?

8、2)提出一種基于顏色邊緣與變換支持向量機(jī)TSVM的文本定位算法。首先根據(jù)文本的顏色邊緣特征進(jìn)行粗篩選，獲得文本候選區(qū)；然后使用TSVM分類器進(jìn)行文本與非文本分類，實(shí)現(xiàn)文本區(qū)域定位與提取。該算法由于考慮了顏色邊緣和利用了TSVM分類器，不僅能夠分離灰度和背景差異較大的文本，還能分離灰度和背景接近，但顏色有差異的文本。試驗(yàn)證明該算法具有檢全率和檢準(zhǔn)率高，而且對(duì)文本的語(yǔ)言類型不敏感的優(yōu)點(diǎn)。變換支持向量機(jī)與普通的支持向量(SVM)相比，TSVM

9、方法所需的樣本量大大降低，它能有效地經(jīng)過(guò)小樣本數(shù)據(jù)集訓(xùn)練后，再進(jìn)行分類，減輕了手工采集訓(xùn)練樣本的負(fù)擔(dān)?！　?3)提出一種視頻中靜止和線性運(yùn)動(dòng)文本的跟蹤算法。該算法可以準(zhǔn)確跟蹤視頻中靜止和運(yùn)動(dòng)的文本，而且不必對(duì)每個(gè)視頻幀都進(jìn)行文本定位，從而大大提高了系統(tǒng)效率。實(shí)驗(yàn)證明該算法具有跟全率高，跟準(zhǔn)率高的優(yōu)點(diǎn)?！　?4)提出一種基于多幀的視頻文本增強(qiáng)算法。通過(guò)多幀分塊分析，可以有效去除復(fù)雜的背景，而且對(duì)噪聲干擾具有魯棒性，能夠大大提高視頻文本

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

數(shù)字視頻中的文本分割的研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

數(shù)字視頻中的文本分割的研究.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載