自然場(chǎng)景中文本識(shí)別技術(shù)研究及實(shí)現(xiàn).pdf_第1頁
已閱讀1頁,還剩124頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、圖像中的文本信息是理解圖像內(nèi)容的重要線索,自然場(chǎng)景中存在著大量的文本信息,這些信息可以為場(chǎng)景理解提供極有價(jià)值的幫助。因而,研究一種自動(dòng)化的文本信息識(shí)別工具,自動(dòng)從自然場(chǎng)景圖像中識(shí)別出文本內(nèi)容,對(duì)場(chǎng)景圖像的檢索、分析以及場(chǎng)景理解均有重要意義。
  傳統(tǒng)文檔分析技術(shù)盡管已經(jīng)取得了巨大的成果,但無法有效處理自然場(chǎng)景中的文本字符。自然場(chǎng)景中的文本圖像與傳統(tǒng)文檔圖像相比具有明顯不同,表現(xiàn)在文本圖像的顏色、亮度、對(duì)比度不一致;文本所在的背景復(fù)

2、雜多變;文本圖像存在變形、殘缺、模糊、斷裂現(xiàn)象;圖像中可能包含強(qiáng)烈的噪聲干擾,等等。這些因素使得自然場(chǎng)景文本識(shí)別技術(shù)面臨諸多挑戰(zhàn)。
  本文針對(duì)自然環(huán)境文本識(shí)別相關(guān)技術(shù)進(jìn)行研究,重點(diǎn)研究自然場(chǎng)景下文本圖像變形的矯正方法、復(fù)雜背景下文本圖像的分割方法、低質(zhì)量字符圖像的識(shí)別方法。具體內(nèi)容如下:
  1.自然場(chǎng)景的文本圖像中存在大量透視變形的情況,文本圖像發(fā)生變形會(huì)嚴(yán)重影響文本識(shí)別的整體性能。本文對(duì)場(chǎng)景圖像的透視變形問題進(jìn)行了研究

3、,并針對(duì)自然場(chǎng)景圖像中文本行數(shù)少,缺乏段落信息,文本邊緣不完整的特點(diǎn),提出了一種基于消失點(diǎn)的變形矯正方法。該方法分兩個(gè)步驟:1)檢測(cè)消失點(diǎn):文本基線的交點(diǎn)就是消失點(diǎn),對(duì)點(diǎn)的檢測(cè)可以轉(zhuǎn)化為參數(shù)空間對(duì)線的檢測(cè)。首先利用數(shù)學(xué)形態(tài)學(xué)算子提取文本字符上的邊緣端點(diǎn),接著采用最近鄰方法對(duì)端點(diǎn)按照文本行的位置進(jìn)行分類,然后使用最小二乘法在篩選后的端點(diǎn)集合中擬合文本基線,最后通過RANSAC方法選擇出一個(gè)最優(yōu)的文本基線集合,在參數(shù)空間擬合出消失點(diǎn)對(duì)應(yīng)的直

4、線。2)變形恢復(fù):文本圖像的變形參數(shù)包含在單應(yīng)矩陣中,利用消失點(diǎn)的位置信息對(duì)單應(yīng)矩陣中的部分參數(shù)進(jìn)行估計(jì),然后使用單應(yīng)矩陣對(duì)圖像實(shí)現(xiàn)矯正恢復(fù),獲得正視圖的文本圖像。由于該方法是從文本圖像的字符中獲得變形參數(shù),不受文本的邊緣和段落格式限制,因此可以對(duì)場(chǎng)景文本進(jìn)行處理。實(shí)驗(yàn)結(jié)果表明,使用本文方法對(duì)大量變形的場(chǎng)景文本圖像進(jìn)行矯正后,字符識(shí)別率明顯提高。
  2.字符分割是字符識(shí)別前的關(guān)鍵步驟,自然場(chǎng)景下的字符區(qū)域常常有復(fù)雜的背景,這會(huì)給

5、從背景中分割出字符圖像造成困難,本文提出了一種基于譜聚類的字符圖像分割方法。該方法與通常的譜方法最大的不同是利用顏色空間量化來構(gòu)造相似矩陣,大大降低了求解特征系統(tǒng)時(shí)的復(fù)雜度。具體步驟是:1)構(gòu)造相似矩陣:首先對(duì)圖像進(jìn)行HSV空間變換并量化該色彩空間,然后定義基于像素色彩信息、紋理信息、距離信息的相似度函數(shù),并計(jì)算各像素之間的相似度,最后以色彩量化區(qū)間為元素構(gòu)造圖像的相似矩陣。2)求解特征系統(tǒng):以相似矩陣對(duì)應(yīng)的拉普拉斯矩陣為特征矩陣建立特

6、征系統(tǒng),求解該特征系統(tǒng)的最小特征值及其特征向量。3)圖像分割:對(duì)最小特征值對(duì)應(yīng)的特征向量進(jìn)行兩類劃分,建立一個(gè)二值指示向量,按照該向量對(duì)相似矩陣進(jìn)行分類,通過分類后的相似矩陣進(jìn)一步實(shí)現(xiàn)原圖像的二值分割。對(duì)大量場(chǎng)景文本圖像進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明該方法優(yōu)于傳統(tǒng)的閾值分割方法,也優(yōu)于基于譜圖準(zhǔn)則的閾值分割方法。
  3.自然場(chǎng)景中文本圖像的特點(diǎn)決定了場(chǎng)景文本的質(zhì)量低下,現(xiàn)有字符識(shí)別方法對(duì)字符圖像的變形、高噪聲、低分辨率等問題還不能有效處

7、理。本文對(duì)低質(zhì)量的字符識(shí)別問題進(jìn)行了研究,提出了一種基于改進(jìn)Gabor小波變換的特征提取方法,并在此基礎(chǔ)上實(shí)現(xiàn)了一種高魯棒的漢字識(shí)別方法。本文通過分析低質(zhì)量漢字圖像特點(diǎn),利用Gabor函數(shù)良好的頻率選擇性和方向選擇性,構(gòu)造了一個(gè)適合于漢字特征提取的Gabor小波變換,并進(jìn)一步提出了基于尺度重疊和基于方向預(yù)分類的改進(jìn)小波變換。尺度重疊強(qiáng)化了Gabor濾波器對(duì)筆劃寬度的選擇,方向預(yù)分類使得濾波器對(duì)筆劃方向的選擇更有針對(duì)性。由于充分考慮了漢字

8、筆劃寬度和方向的多峰值分布,優(yōu)化了小波變換參數(shù),從而獲得一種高魯棒性的漢字特征。在HCL2000標(biāo)準(zhǔn)手寫漢字庫和低分辨率漢字庫上的測(cè)試表明,該方法對(duì)筆劃變形和低分辨率的漢字字符具有良好的適應(yīng)性,能有效處理質(zhì)量較差的漢字字符。
  最后,利用提出的多個(gè)方法,本文建立了一個(gè)自然場(chǎng)景文本信息識(shí)別系統(tǒng),通過實(shí)驗(yàn)表明該系統(tǒng)在處理自然場(chǎng)景文本圖像的有效性。由于本文建立的文本識(shí)別系統(tǒng)對(duì)輸入圖像的限制較少,可以認(rèn)為是針對(duì)實(shí)際應(yīng)用系統(tǒng)研究的一個(gè)有益

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論