視頻文字提取技術(shù)研究與應(yīng)用.pdf_第1頁
已閱讀1頁,還剩91頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、視頻文字直接承載了高層語義信息,因此,如果能夠有效地提取視頻中的文字信息,對高速增長的視頻內(nèi)容的高效檢索、理解和復(fù)用將具有重要的作用。傳統(tǒng)的OCR技術(shù)不能完全解決視頻中的文字信息提取問題,特別是復(fù)雜背景中的文字。因此,需要從理論和技術(shù)上提供有效的解決方案。
  視頻文字信息抽取的技術(shù)難點主要來源于5個方面:(1)復(fù)雜背景中的文字定位以及退化文字的定位問題;(2)種類繁多的字符圖像二值化問題;(3)復(fù)雜背景中的字符切分問題;(4)粘

2、連字符的切分問題;(5)退化字符的識別問題。
  本文圍繞著視頻文字信息抽取這一領(lǐng)域,針對其中的若干問題展開了研究工作。本文的主要工作包括:
  1.為解決各種類型的字符圖像二值化問題,提出了一種多二值圖像融合的字符圖像二值化算法。算法首先從不同的角度提取圖像的信息,得到不同的二值圖像,然后把這些二值圖像融合,得到最終的二值圖像。對比其他字符圖像二值化算法,該多二值圖像融合的算法能大大地提高字符識別系統(tǒng)的性能。
  2

3、.為解決字符的切分問題,分析了字符圖像的特點及字符切分的難點,提出了一種基于啟發(fā)和識別的字符切分算法。算法能同時對粘連字符及復(fù)雜背景中的字符進行較準(zhǔn)確的切分,同時能去除切分單元中的“噪聲”成分,克服了啟發(fā)式字符切分算法的某些缺陷。
  3.為解決退化字符的識別問題,提出了一種基于融合圖像的字符識別算法。對比字符的二值圖像和灰度圖像,融合圖像既能保留有用的字符筆畫灰度信息,同時能去除無用的背景信息,提高了字符識別系統(tǒng)的性能。該字符識

4、別算法同時能較準(zhǔn)確地給出識別結(jié)果的置信度,結(jié)合基于詞的二元及三元統(tǒng)計語言模型,利用連續(xù)多個字符切分單元的上下文信息,進一步提高了字符識別率。
  4.提出了一種圖像中的文字定位以及視頻中的文字提取算法。圖像中的文字定位算法首先基于字符筆畫的雙邊緣模型得到候選文字區(qū)域,然后對候選文字區(qū)域進行分解得到精確定位的文本塊,最后基于啟發(fā)和字符識別對文本塊進行驗證。視頻中的文字提取算法每隔若干視頻幀取一幀進行基于圖像的文字定位得到文字對象,然

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論