扭曲圖像恢復(fù)-畢業(yè)設(shè)計(jì)-論文_第1頁
已閱讀1頁,還剩39頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、<p><b>  目 錄</b></p><p><b>  前 言1</b></p><p>  第一章緒 論2</p><p>  1.1圖像處理概論2</p><p>  1.2圖像處理的研究內(nèi)容2</p><p>  1.3圖像處理的應(yīng)用

2、3</p><p>  1.4本文的研究工作與創(chuàng)新點(diǎn)4</p><p>  第二章 文檔圖像處理5</p><p>  2.1文檔圖像的概述5</p><p>  2.1.1文檔圖像獲取5</p><p>  2.1.2文檔圖像獲取中的難題5</p><p>  2.2文檔圖像的處理

3、6</p><p>  2.2.1圖像去色及二值化6</p><p>  2.2.2傾斜檢測與校正6</p><p>  2.2.3版面結(jié)構(gòu)理解7</p><p>  2.3扭曲文檔圖像的處理8</p><p>  2.3.1基于2D文檔圖像分析8</p><p>  2.3.2基于3

4、D文檔模型重建8</p><p>  2.3.3比較與分析9</p><p><b>  2.4本章小結(jié)9</b></p><p>  第三章2D文檔圖像扭曲恢復(fù)的預(yù)處理10</p><p>  3.1系統(tǒng)分析與設(shè)計(jì)10</p><p>  3.1.1扭曲恢復(fù)技術(shù)流程10</p

5、><p>  3.1.2需求分析與系統(tǒng)設(shè)計(jì)11</p><p>  3.2文檔圖像預(yù)處理12</p><p>  3.2.1圖像去色12</p><p>  3.2.2噪聲消除13</p><p>  3.2.2.1噪聲消除的方法13</p><p>  3.2.2.2噪聲消除的實(shí)現(xiàn)14

6、</p><p>  3.2.2.3實(shí)驗(yàn)結(jié)果與分析14</p><p>  3.2.3圖像二值化15</p><p>  3.2.3.1二值化算法16</p><p>  3.2.3.2實(shí)驗(yàn)結(jié)果與分析18</p><p>  3.3本章小結(jié)18</p><p>  第四章文檔圖像的扭

7、曲恢復(fù)19</p><p>  4.1字符和文本行標(biāo)識(shí)19</p><p>  4.1.1標(biāo)識(shí)的步驟19</p><p>  4.1.2標(biāo)識(shí)算法偽代碼19</p><p>  4.1.3實(shí)驗(yàn)結(jié)果與分析20</p><p>  4.2曲線分割與傾斜校正21</p><p>  4.3字

8、符平移23</p><p>  4.3.1平移的思想23</p><p>  4.3.2平移算法偽代碼24</p><p>  4.3.3實(shí)驗(yàn)結(jié)果與分析24</p><p>  4.4本章小結(jié)25</p><p>  第五章 文檔圖像的后處理26</p><p>  5.1斷筆修復(fù)

9、26</p><p>  5.2背景恢復(fù)26</p><p>  5.3實(shí)驗(yàn)結(jié)果與分析27</p><p>  5.3.1 OCR測試27</p><p>  5.3.2結(jié)果分析31</p><p>  5.4 本章小結(jié)32</p><p>  第六章 總結(jié)與展望33</p&g

10、t;<p>  6.1 課題總結(jié)33</p><p>  6.2 后續(xù)研究展望33</p><p><b>  參考文獻(xiàn)34</b></p><p>  作者攻讀學(xué)士學(xué)位期間發(fā)表(錄用)的論文36</p><p><b>  致 謝37</b></p><

11、;p><b>  摘 要</b></p><p>  在掃描、復(fù)印或者拍攝文檔的過程中造成的圖像扭曲在文檔理解和處理方面是普遍的問題。這種文檔圖像的扭曲降低了光學(xué)文字辨識(shí)(OCR)能力,也嚴(yán)重影響了其使用效果。這是文檔打印數(shù)字化和自動(dòng)化過程中的主要障礙。</p><p>  本課題的研究工作是對這種扭曲文檔圖像采用相關(guān)的技術(shù)進(jìn)行一定的恢復(fù)。本文首先介紹了文檔圖

12、像的處理技術(shù)和當(dāng)前已有的扭曲恢復(fù)技術(shù),然后重點(diǎn)描述了基于2D文檔圖像分析的恢復(fù)技術(shù)的流程,及解決方案的設(shè)計(jì),并付諸于程序?qū)崿F(xiàn)。實(shí)驗(yàn)結(jié)果的分析表明,文檔圖像扭曲恢復(fù)后的OCR識(shí)別率要明顯高于恢復(fù)之前的。最后我們對課題的研究進(jìn)行總結(jié)和展望。</p><p>  關(guān)鍵詞:文檔圖像,圖像處理,扭曲恢復(fù)</p><p><b>  作 者: </b></p>

13、<p><b>  指導(dǎo)老師: </b></p><p><b>  Abstract</b></p><p>  Image warping caused by scanning, photocopying or photographing a document is a common problem in the field of

14、 document processing and understanding. Distortion within the text documents impairs OCR ability and thus strongly decreases the usability of the results. This is one of the major obstacles for automating the process of

15、digitizing printed documents.</p><p>  Our research is using relative methods to restore the warped document images. Document image processing technology and present de-warping methods are firstly presented

16、in this paper. And then, we pay more attention on the progress of de-warping and its solution design, based on analysis of 2D document image, after which we realize it in our system. Analysis of our experiment result sho

17、ws the OCR accuracy of de-warped document image is much higher than that of the warped. Finally, we give out a b</p><p>  Keywords: document image, image processing, de-warp</p><p>  Written by

18、</p><p>  Supervised by </p><p><b>  前 言</b></p><p>  隨著人工智能和多媒體技術(shù)的發(fā)展,數(shù)字圖像處理技術(shù)的應(yīng)用越來越廣泛。越來越多的文檔被掃描成為數(shù)字圖像,伴隨計(jì)算機(jī)的普及,為人們的生活、工作和學(xué)習(xí)提供了方便。同時(shí),在文檔被掃描的過程中,數(shù)字圖像會(huì)出現(xiàn)普遍的扭曲和陰影現(xiàn)象。由各種原因

19、造成的扭曲文檔圖像,無論是對人們的閱讀理解還是對文檔圖像處理的自動(dòng)化都帶來了影響。</p><p>  目前已經(jīng)出現(xiàn)一些扭曲文檔圖像的恢復(fù)技術(shù)。這些技術(shù)大致劃分為兩類[1]:基于2D文檔圖像分析的恢復(fù)技術(shù)和基于3D文檔模型重建的恢復(fù)技術(shù)。作者認(rèn)為該分類是扭曲恢復(fù)技術(shù)分類的主流,多數(shù)恢復(fù)技術(shù)均圍繞這一分類展開。</p><p>  文獻(xiàn)[2-4]均是針對分類中的前者進(jìn)行研究,即從已有的扭曲文

20、檔圖像出發(fā),通過對扭曲文檔的特征分析,找出合適的恢復(fù)算法。文獻(xiàn)[1,5]則更多從造成文檔扭曲的因素出發(fā),包括硬件設(shè)備及掃描對象本身,通過重建文檔的3D模型并輔以數(shù)學(xué)分析,找出合理的恢復(fù)算法。其中,基于3D文檔模型重建且可行的前提必須是對象所呈現(xiàn)的模型是規(guī)范的,如圓柱狀,這樣勢必對文檔對象及其環(huán)境加以限制,如書脊平行于掃描光源等。文獻(xiàn)[6]將3D文檔模型重建與2D文檔圖像分析結(jié)合起來,解除一些限制,使其處理對象更加廣泛。綜上分析,這種基于

21、3D模型重建的方法,為了建立規(guī)范的3D模型、解除各種限制,使加入的處理算法越來越多,從而使整個(gè)恢復(fù)技術(shù)顯得更復(fù)雜。這會(huì)導(dǎo)致至少兩方面問題:算法實(shí)現(xiàn)的復(fù)雜性提高和算法的整體效率降低。因此,它的適用性受到限制,尤其在處理大宗扭曲文檔圖像時(shí)顯得不實(shí)用。</p><p>  為了達(dá)到實(shí)用和高效的批處理效率,作者選擇分類中的前者,結(jié)合當(dāng)前已有算法和對中文特征的分析,擬設(shè)計(jì)出一種簡單有效的,適用于扭曲的中文文檔圖像的恢復(fù)技術(shù)

22、。</p><p>  全文分為六章。第一章緒論,介紹了圖像處理的概論和本文所做的研究工作及創(chuàng)新點(diǎn)。第二章文檔圖像處理,從圖像處理引申到文檔圖像處理,再具體到扭曲文檔圖像的處理,簡要介紹了文檔圖像的處理技術(shù)和文檔圖像扭曲恢復(fù)的兩種技術(shù)原理。第三章是基于2D文檔圖像分析的扭曲恢復(fù)技術(shù),主要介紹了該技術(shù)的流程和系統(tǒng)設(shè)計(jì),以及扭曲恢復(fù)前的文檔圖像預(yù)處理。第四章是文檔圖像的扭曲恢復(fù),該章是核心章節(jié),也是本文研究工作的創(chuàng)新

23、點(diǎn),詳細(xì)介紹了如何對扭曲的文檔圖像進(jìn)行一定的恢復(fù)。第五章文檔圖像后處理,是對扭曲恢復(fù)后的圖像進(jìn)行信息修復(fù),并對最終處理結(jié)果做了測試分析。第六章總結(jié)與展望,對本課題的工作進(jìn)行總結(jié),并對其中的不足及后續(xù)的研究作展望。</p><p><b>  第一章緒 論</b></p><p><b>  1.1圖像處理概論</b></p>&

24、lt;p>  圖像處理是指將圖像信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)并利用計(jì)算機(jī)對其進(jìn)行處理的過程。它最早出現(xiàn)于20世紀(jì)50年代,當(dāng)時(shí)的電子計(jì)算機(jī)已經(jīng)發(fā)展到一定水平,人們開始利用計(jì)算機(jī)來處理圖形和圖像信息。</p><p>  數(shù)字圖像處理作為一門學(xué)科大約形成于20世紀(jì)60年代初期。早期圖像處理的目的是改善圖像的質(zhì)量,它以人為對象,以改善人的視覺效果為目的。圖像處理中,輸入的是質(zhì)量低的圖像,輸出的是改善質(zhì)量后的圖像,常用的圖

25、像處理技術(shù)有圖像增強(qiáng)與復(fù)原、編碼壓縮等。</p><p>  1.2圖像處理的研究內(nèi)容</p><p>  圖像處理的研究內(nèi)容非常廣泛,下面對一些常見的研究內(nèi)容作簡要介紹。</p><p><b>  1、圖像變換</b></p><p>  由于圖像陣列很大,直接在空間域中進(jìn)行處理,涉及計(jì)算量很大。因此,往往采用各種圖

26、像變換的方法,如傅立葉變換、沃爾什變換、離散余弦變換等間接處理技術(shù),將空間域的處理轉(zhuǎn)換為變換域處理,不僅可減少計(jì)算量,而且可獲得更有效的處理(如傅立葉變換可在頻域中進(jìn)行數(shù)字濾波處理)。目前新興研究的小波變換在時(shí)域和頻域中都具有良好的局部化特性,它在圖像處理中也有著廣泛而有效的應(yīng)用。</p><p><b>  2、圖像編碼壓縮</b></p><p>  圖像編碼壓縮

27、技術(shù)可減少描述圖像的數(shù)據(jù)量(即比特?cái)?shù)),以便節(jié)省圖像傳輸、處理時(shí)間和減少所占用的存儲(chǔ)器容量。壓縮可以在不失真的前提下獲得,也可以在允許的失真條件下進(jìn)行。編碼是壓縮技術(shù)中最重要的方法,它在圖像處理技術(shù)中是發(fā)展最早且比較成熟的技術(shù)。</p><p><b>  3、圖像增強(qiáng)與復(fù)原</b></p><p>  圖像增強(qiáng)和復(fù)原的目的是為了提高圖像的質(zhì)量,如去除噪聲,提高圖像的

28、清晰度等。圖像增強(qiáng)不考慮圖像降質(zhì)的原因,突出圖像中所感興趣的部分。如強(qiáng)化圖像高頻分量,可使圖像中物體輪廓清晰,細(xì)節(jié)明顯;如強(qiáng)化低頻分量可減少圖像中噪聲影響。圖像復(fù)原要求對圖像降質(zhì)的原因有一定的了解,一般講應(yīng)根據(jù)降質(zhì)過程建立“降質(zhì)模型”,再采用某種濾波方法,恢復(fù)或重建原來的圖像。</p><p><b>  4、圖像分割</b></p><p>  圖像分割是數(shù)字圖像處

29、理中的關(guān)鍵技術(shù)之一。圖像分割是將圖像中有意義的特征部分提取出來,其有意義的特征有圖像中的邊緣、區(qū)域等,這是進(jìn)一步進(jìn)行圖像識(shí)別、分析和理解的基礎(chǔ)。雖然目前已研究出不少邊緣提取、區(qū)域分割的方法,但還沒有一種普遍適用于各種圖像的有效方法。因此,對圖像分割的研究還在不斷深入之中,是目前圖像處理中研究的熱點(diǎn)之一。 </p><p><b>  5、圖像描述</b></p><p&g

30、t;  圖像描述是圖像識(shí)別和理解的必要前提。作為最簡單的二值圖像可采用其幾何特性描述物體的特性,一般圖像的描述方法采用二維形狀描述,它有邊界描述和區(qū)域描 述兩類方法。對于特殊的紋理圖像可采用二維紋理特征描述。隨著圖像處理研究的深入發(fā)展,已經(jīng)開始進(jìn)行三維物體描述的研究,提出了體積描述、表面描述、廣義圓柱體描述等方法。</p><p><b>  6、圖像分類</b></p>&l

31、t;p>  圖像分類(識(shí)別)屬于模式識(shí)別的范疇,其主要內(nèi)容是圖像經(jīng)過某些預(yù)處理(增強(qiáng)、復(fù)原、壓縮)后,進(jìn)行圖像分割和特征提取,從而進(jìn)行判決分類。圖像分類常采用經(jīng)典的模式識(shí)別方法,有統(tǒng)計(jì)模式分類和句法(結(jié)構(gòu))模式分類,近年來新發(fā)展起來的模糊模式識(shí)別和人工神經(jīng)網(wǎng)絡(luò)模式分類在圖像識(shí)別中也越來越受到重視。</p><p>  1.3圖像處理的應(yīng)用</p><p>  首次將圖像處理成功應(yīng)用于

32、實(shí)際的是美國噴氣推進(jìn)實(shí)驗(yàn)室(JPL)。他們對航天探測器徘徊者7號(hào)在1964年發(fā)回的幾千張?jiān)虑蛘掌褂昧藞D像處理技術(shù),如幾何校正、灰度變換、去除噪聲等方法進(jìn)行處理,并考慮了太陽位置和月球環(huán)境的影響,由計(jì)算機(jī)成功地繪制出月球表面地圖,獲得了巨大的成功。隨后又對探測飛船發(fā)回的近十萬張照片進(jìn)行更為復(fù)雜的圖像處理,以致獲得了月球的地形圖、彩色圖及全景鑲嵌圖,獲得了非凡的成果,為人類登月創(chuàng)舉奠定了堅(jiān)實(shí)的基礎(chǔ),也推動(dòng)了數(shù)字圖像處理這門學(xué)科的誕生。&l

33、t;/p><p>  數(shù)字圖像處理取得的另一個(gè)巨大成就是在醫(yī)學(xué)上獲得的成果。1972年英國EMI公司工程師Housfield發(fā)明了用于頭顱診斷的X射線計(jì)算機(jī)斷層攝影裝置 CT(Computer Tomograph)。CT的基本方法是根據(jù)人的頭部截面的投影,經(jīng)計(jì)算機(jī)處理來重建截面圖像,稱為圖像重建。1975年EMI公司又成功研制出全身用的CT裝置,獲得了人體各個(gè)部位鮮明清晰的斷層圖像。1979年,這項(xiàng)無損傷診斷技術(shù)獲得

34、了諾貝爾獎(jiǎng),說明它對人類作出了劃時(shí)代的貢獻(xiàn)。 </p><p>  與此同時(shí),圖像處理技術(shù)在許多應(yīng)用領(lǐng)域受到廣泛重視并取得了重大的開拓性成就,屬于這些領(lǐng)域的有航空航天、生物醫(yī)學(xué)工程、工業(yè)檢測、機(jī)器人視覺、公安司法、軍事制導(dǎo)等,使圖像處理成為一門引人注目、前景遠(yuǎn)大的新型學(xué)科。</p><p>  1.4本文的研究工作與創(chuàng)新點(diǎn)</p><p>  在圖像處理中,文檔圖像

35、處理一直是眾多學(xué)者研究的課題。隨著計(jì)算機(jī)技術(shù)的普及,文檔扭曲的現(xiàn)象變得越來越常見,如何對扭曲文檔圖像進(jìn)行恢復(fù)逐漸成為當(dāng)今圖像處理的研究熱點(diǎn)之一。</p><p>  本文的工作主要是對扭曲文檔圖像的恢復(fù)技術(shù)進(jìn)行研究。我們結(jié)合對2D文檔圖像的分析,參考當(dāng)前適用于西文的扭曲恢復(fù)算法,擬找出一種適合于扭曲狀態(tài)下的中文文檔恢復(fù)技術(shù),且該技術(shù)不依賴于為保證文檔圖像質(zhì)量而做的各種假設(shè)。研究過程中,作者進(jìn)行了大量實(shí)驗(yàn),得到一系

36、列有價(jià)值的結(jié)論,完成了一定的創(chuàng)新性工作。</p><p>  本文的創(chuàng)新工作主要體現(xiàn)在以下幾方面:</p><p>  1、將文檔圖像扭曲恢復(fù)的研究對象從西文轉(zhuǎn)移到中文,對扭曲狀態(tài)下的中文文檔特征進(jìn)行觀察與分析,通過試驗(yàn)比較,找出適合中文處理的相關(guān)參數(shù)。</p><p>  2、在文檔圖像扭曲恢復(fù)的過程中采用極限的思想,分割文本行基線曲線,我們認(rèn)為被合理分割的曲線片

37、段是線性的。利用該思想可以將復(fù)雜的曲線處理轉(zhuǎn)化為直線處理。</p><p>  3、在文檔圖像后處理中,針對中文復(fù)雜的背景特征,摒棄背景的直接載入,轉(zhuǎn)用簡單的均值法處理代替,使得處理后的效果更好。</p><p>  第二章 文檔圖像處理</p><p>  文檔作為信息的載體,在社會(huì)生活中占有著十分重要的地位。通常,我們可以把存儲(chǔ)在計(jì)算機(jī)中或紙上的一切具有閱讀意義

38、的信息稱為文檔。為能簡便有效地使用和管理信息,自上世紀(jì)六十年代以來,人們進(jìn)行了大量關(guān)于文檔處理系統(tǒng)的研究。文檔可以通過掃描儀、數(shù)碼相機(jī)或文檔處理系統(tǒng)進(jìn)入計(jì)算機(jī),轉(zhuǎn)化為文檔圖像或者電子文檔,從而使人們能夠方便有效地對其進(jìn)行存儲(chǔ)、管理、傳輸。</p><p>  2.1文檔圖像的概述</p><p>  2.1.1文檔圖像獲取</p><p>  近年來,數(shù)字化文檔被廣

39、泛應(yīng)用于辦公自動(dòng)化、數(shù)字化圖書館、工業(yè)自動(dòng)化等領(lǐng)域。隨著科技的發(fā)展,傳統(tǒng)掃描儀體積大、效率低、攜帶不方便等不足之處日益突出,而數(shù)字照相機(jī)體積小、價(jià)位低,可以很容易地?cái)y帶并結(jié)合到手機(jī)、 手提電腦以及各種網(wǎng)絡(luò)設(shè)備中去,它還可以遠(yuǎn)距離地對背景文字及脆弱的珍貴文檔拍照, 更適用于無約束環(huán)境下的數(shù)字化操作。因此,將數(shù)字照相機(jī)引入文檔圖像分析已經(jīng)引起越來越多人的關(guān)注。</p><p>  Newman的調(diào)查表明,從報(bào)紙上提取

40、段落時(shí),基于PC攝像頭的OCR操作比基于掃描儀的OCR操作效率高得多;Fisher等調(diào)查了在戰(zhàn)場上用數(shù)字?jǐn)z像機(jī)替換士兵攜帶sheet-fed掃描儀的可能性。經(jīng)證實(shí),數(shù)字?jǐn)z像機(jī)能夠以200dpi拍攝整張A4文檔紙,已經(jīng)達(dá)到OCR所要求的分辨率。</p><p>  在過去的20年中,基于攝像機(jī)的文檔分析已經(jīng)有一定的應(yīng)用,如自動(dòng)閱讀執(zhí)照、書籍雜志分類,貨運(yùn)車ID、公路掛牌、危險(xiǎn)標(biāo)志識(shí)別等。</p>&l

41、t;p>  2.1.2文檔圖像獲取中的難題</p><p>  用數(shù)字照相機(jī)拍攝的文檔圖像也有新問題需要解決:當(dāng)文檔表面彎曲變形時(shí),數(shù)字相機(jī)拍到的文字及圖形圖像將會(huì)產(chǎn)生畸變;在掃描儀中,也會(huì)出現(xiàn)這一現(xiàn)象。文檔圖像的變形對后續(xù)處理工作,如 OCR識(shí)別、 數(shù)字文檔的版面分析、格式處理以及文檔自動(dòng)化都帶來極大困難,因此必須首先通過圖像矯正的方法對這種變形文檔進(jìn)行圖像恢復(fù)。</p><p>

42、  在2001年的數(shù)字化項(xiàng)目中,德國代表哲學(xué)家Nietzsche在Duisburg–Essen大學(xué)對創(chuàng)作于1865至1945年的文本文檔做了數(shù)字轉(zhuǎn)換。這次轉(zhuǎn)化的過程既復(fù)雜又耗時(shí)。很多文檔使用德國哥特體(fraktur)活字技術(shù)印刷出來,而現(xiàn)在的OCR程序?qū)raktur活字識(shí)別不很理想,因此常常伴隨著人工修改。對于那些質(zhì)量差一些的以原始影印文件為主的文學(xué)來源,數(shù)字化過程則需要進(jìn)一步的人工互動(dòng)。其中陰影、傾斜和扭曲都會(huì)極大的降低OCR識(shí)別

43、的準(zhǔn)確度。</p><p>  2.2文檔圖像的處理</p><p>  文檔圖像處理包含許多方面,下面對一些重要的技術(shù)做簡要說明。</p><p>  2.2.1圖像去色及二值化</p><p>  存儲(chǔ)在紙上的文檔,若要輸入計(jì)算機(jī)中,首先要通過掃描儀掃描成為數(shù)字圖像。它可以是彩色圖像,也可以是灰度圖像,或者是二值圖像,取決于掃描的具體過程

44、。但一般文檔處理系統(tǒng)要處理的是灰度圖像,而且很多成熟的圖像處理算法和工具包也是針對灰度圖像的。在進(jìn)入識(shí)別階段時(shí),識(shí)別引擎一般是針對二值圖像的。因此,我們必須對輸入的圖像進(jìn)行處理,將其二值化。</p><p>  圖像的二值化處理就是將圖像上的像素點(diǎn)的灰度值設(shè)置為0或255,也就是將整個(gè)圖像呈現(xiàn)出明顯的黑白效果。</p><p>  將256亮度等級(jí)的灰度圖像通過適當(dāng)?shù)拈y值選取而獲得仍然可以

45、反映圖像整體和局部特征的二值化圖像。在數(shù)字圖像處理中,二值圖像占有非常重要的地位。首先,圖像的二值化有利于圖像的進(jìn)一步處理,使圖像變得簡單,且數(shù)據(jù)量減小,能凸顯出感興趣的目標(biāo)輪廓。其次,要進(jìn)行二值圖像的處理與分析,首先要把灰度圖像二值化,得到二值化圖像。</p><p>  在我們所研究的文檔圖像處理這一特定領(lǐng)域中,圖像的二值化一般是指將灰度圖像轉(zhuǎn)化為只包含黑、白兩個(gè)灰度的二值圖像。文檔圖像可以看作是由文字、背景

46、、圖片三類對象組成,而我們最關(guān)心的是文字區(qū)域二值化后的結(jié)果。</p><p>  圖像的這種轉(zhuǎn)換必然會(huì)引起信息丟失,因此采用什么樣的算法能夠最大限度地保留識(shí)別時(shí)必需的信息(如字符的連通性),去掉不必要的背景信息和噪聲,并且執(zhí)行時(shí)間在實(shí)際可接受的范圍內(nèi),是人們一直以來努力研究的問題。</p><p>  2.2.2傾斜檢測與校正</p><p>  文檔處理系統(tǒng)要求的

47、處理對象是工整的文檔圖像,或者傾斜角度已知,否則許多對圖像的操作,例如投影分析,圖像分割等就無法進(jìn)行。顯然,掃描進(jìn)計(jì)算機(jī)的文檔圖像無法保證一定是正的,因此需要利用傾斜檢測和校正的方法對其進(jìn)行處理。經(jīng)常采用的傾斜角度檢測的方法有:基于文本行的檢測方法,投影輪廓分析方法,和Hough變換方法等。 基于文本行的檢測可以用于已知文本行方向(水平或豎直)的文檔圖像,它利用了對圖像中連通體的分析。我們知道,連通體是一個(gè)灰度值相同的像素的集合,這

48、個(gè)集合中任意兩個(gè)像素之間都是8-近鄰關(guān)系??梢杂冒B通體內(nèi)像素的最小矩形來表示連通體,它描述了連通體的大小和位置信息。如果已知文本行方向,我們就可以將連通體合并成文本行,并用直線逼近。該直線的傾斜角即為文本行的傾斜角。對整幅圖像的文本行作同樣分析,選出出現(xiàn)頻率最高的角度,即可作為圖像的傾斜角。 投影操作也是一種基本的圖像處理方法。將圖像按一定方向作投影,可以得到在該方向坐標(biāo)軸上分布的波形,它描述了圖像沿該方向上的黑像素分布情況。如

49、果圖像文本行是水平的,那么沿水平方向的投影波形將具有明顯的波峰和波谷?;谶@一點(diǎn),我們可以在候選傾斜角</p><p>  2.2.3版面結(jié)構(gòu)理解</p><p>  文檔圖像幾何結(jié)構(gòu)的理解也稱為版面拆解,它是文檔圖像分析中的一個(gè)重要問題。版面拆解的目的是生成一個(gè)描述文檔圖像的層次結(jié)構(gòu):幾何結(jié)構(gòu)。它將圖像分割成為具有相同特性的區(qū)域,為下一步的區(qū)域識(shí)別和文字識(shí)別做好準(zhǔn)備。版面拆解的方法一般有

50、如下三種: 1.自底向上(Bottom-Up,也稱為數(shù)據(jù)驅(qū)動(dòng))。這類方法利用圖像的局部信息,通過逐步將具有相同屬性的區(qū)域合并,得到對文檔版面的拆解。該方法能處理不同版面的文檔和具有一定傾斜的文檔,但是一般比較慢。 2.自頂向下(Top-Down,也稱模型驅(qū)動(dòng))。該方法從圖像全局出發(fā),逐步對圖像進(jìn)行分割,最后得到圖像的幾何結(jié)構(gòu)。對Manhattan式的版面,該方法快速而且有效;但是對復(fù)雜文檔效果欠佳。影響自頂向下方法有效性的因素包

51、括文本行位置的隨意性,區(qū)域形狀的不規(guī)則性以及文檔圖像的傾斜等。 3.綜合方法(Hybrid)則盡量綜合上述兩種方法的特點(diǎn),使算法的性能和適應(yīng)性都得到提高。</p><p>  2.3扭曲文檔圖像的處理</p><p>  扭曲文檔圖像的恢復(fù)是當(dāng)今圖像處理的研究熱點(diǎn)之一,隨著更多學(xué)者的加入,目前已出現(xiàn)一些文檔圖像的扭曲恢復(fù)技術(shù)。這些技術(shù)大致劃分為兩類:基于2D文檔圖像分析的恢復(fù)技術(shù)和基于

52、3D文檔模型重建的恢復(fù)技術(shù)。</p><p>  2.3.1基于2D文檔圖像分析</p><p>  基于2D文檔圖像分析的算法,摒棄對扭曲現(xiàn)象的幾何模擬,直接對文檔圖像進(jìn)行分析,包括傾斜度、文本行、字符或詞組特征,然后設(shè)計(jì)出一種不受文檔圖像以外因素影響的扭曲恢復(fù)技術(shù)。該算法不需要清楚的知道扭曲造成的原因。</p><p>  Wu和Agam在其文獻(xiàn)[7]中提出一種

53、方法,該方法在給定角度范圍內(nèi)通過最小化局部累積投影從而檢測和跟蹤單文檔圖像中彎曲的文本行。這種算法是從給定區(qū)域的左邊界(假設(shè)左邊界是接近垂直的并由人為保證)開始,逐漸跟蹤這些彎曲的文本行。這些文本行用于重建可用于恢復(fù)扭曲的目標(biāo)框架。在文獻(xiàn)[7]中這種算法被應(yīng)用于由數(shù)碼相機(jī)拍攝的低透率的文檔。他們沒有在文檔和相機(jī)的成像面的角度上加任何限制。另一方面,利用這種方法所呈現(xiàn)的結(jié)果仍然在文檔的扭曲區(qū)域存在文字的失真。</p><

54、;p>  Zhang和Tan在文獻(xiàn)[8]中提出的算法,是通過光明區(qū)與從合訂本掃描的灰度級(jí)文檔圖像造成的陰影區(qū)之間的區(qū)別進(jìn)行彎曲檢測的。圖像扭曲的部分在陰影區(qū),連接組件的文本行可用近似于二次方程的曲線描述。而在非陰影區(qū)域的文本行則可參考近似直線確定。陰影區(qū)中兩曲線的結(jié)合處的相對位置用以參照非陰影區(qū)域相應(yīng)的直線,上下垂直的移動(dòng)連接組件的曲線,直到其方向與兩曲線切線的平均角度相吻合。</p><p>  2.3.

55、2基于3D文檔模型重建</p><p>  基于3D文檔模型重建的算法,主要從造成文檔扭曲的因素出發(fā),包括文檔及其擺放角度、光源方向、圖像獲取設(shè)備特征等因素。通過綜合分析,嘗試找出文檔理想的3D模型從而對扭曲現(xiàn)象進(jìn)行模擬,再利用已有的數(shù)學(xué)知識(shí)進(jìn)行恢復(fù)。該算法的優(yōu)勢在于可利用已有知識(shí),很好地模擬文檔扭曲的幾何模型。</p><p>  在文獻(xiàn)[9]中,Cao et. al.針對由數(shù)碼相機(jī)拍攝

56、文檔造成的扭曲提出了一種圓通模型。他們的糾正算法僅局限于書形成的圓筒表面的母線平行于成像面的情況,即3D文檔模型成圓柱狀。</p><p>  Zhang et. al.發(fā)表的文獻(xiàn)[10]中提出了一種算法,可以恢復(fù)文檔扭曲。這種文檔扭曲在掃描較厚的合訂本時(shí)產(chǎn)生的,而且書的脊柱與掃描光線是平行的。可見,現(xiàn)有基于模型算法的局限就在于他們需要很多前提條件。目前還尚沒有一種幾何模型可以適用于任何形式下扭曲文檔圖像的識(shí)別與

57、自動(dòng)恢復(fù)。</p><p>  2.3.3比較與分析</p><p>  基于分析的和模型的算法都能提高OCR的識(shí)別率。結(jié)果顯示,在第一類算法中糾正過的文本中剩余的彎曲率較高,但其邊界適應(yīng)性仍是明顯的優(yōu)勢。由于我們項(xiàng)目中的原始文檔經(jīng)常不可靠,外部因素不確定,加上數(shù)字化和處理文檔的過程可能處于分布式,因此第二類算法顯得不適用。</p><p><b>  2

58、.4本章小結(jié)</b></p><p>  本章主要介紹了文檔圖像處理的相關(guān)知識(shí),從文檔圖像的獲取及獲取中遇到的難題入手,介紹了文檔圖像的處理技術(shù),進(jìn)而引申到扭曲文檔圖像的處理,并對現(xiàn)有扭曲文檔圖像的兩種恢復(fù)技術(shù)原理做了簡要說明。</p><p>  第三章2D文檔圖像扭曲恢復(fù)的預(yù)處理</p><p>  本文提出的基于2D文檔圖像分析的扭曲恢復(fù)技術(shù),整

59、體分為三步:預(yù)處理、扭曲恢復(fù)和后處理。其中,預(yù)處理將在本章系統(tǒng)分析與設(shè)計(jì)之后進(jìn)行介紹;扭曲恢復(fù)是本文研究工作的創(chuàng)新點(diǎn),將在第四章單獨(dú)進(jìn)行詳細(xì)介紹;后處理與最終的實(shí)驗(yàn)結(jié)果分析將在第五章中作說明。本章從扭曲恢復(fù)的前期工作著手,對該技術(shù)的流程與設(shè)計(jì),以及圖像的預(yù)處理進(jìn)行詳細(xì)描述。</p><p>  3.1系統(tǒng)分析與設(shè)計(jì)</p><p>  3.1.1扭曲恢復(fù)技術(shù)流程</p>&l

60、t;p>  文獻(xiàn)[2-3]對各種基于2D文檔圖像分析的方法進(jìn)行描述,然而這些方法處理的對象都是西文。眾所周知,中文和西文有著很大的區(qū)別,因此以上很多方法在處理扭曲的中文文檔時(shí)不實(shí)用。這里從當(dāng)前處理西文的方法出發(fā),結(jié)合扭曲狀態(tài)下的中文特征,找出一種簡單有效的中文文檔扭曲恢復(fù)技術(shù)。技術(shù)流程如圖3-1。</p><p>  圖3-1 扭曲恢復(fù)技術(shù)的流程</p><p>  按照流程,輸入的

61、各種扭曲文檔圖像,經(jīng)過若干處理后,輸出為扭曲校正后的圖像。下面圍繞各處理過程的用途進(jìn)行簡要說明。</p><p><b>  預(yù)處理</b></p><p>  文檔圖像預(yù)處理,是將種類繁多的格式歸一化為程序易處理的位圖格式,且處理成為效果較好的二值化圖像,為其扭曲恢復(fù)做好準(zhǔn)備。過程中涉及到格式轉(zhuǎn)換,圖像去色及二值化,以及噪聲消除等。</p><p

62、><b>  扭曲恢復(fù)</b></p><p>  在扭曲恢復(fù)中,我們首先對預(yù)處理后的二值化扭曲圖像進(jìn)行分析,采用相關(guān)的技術(shù)和算法對其中扭曲的文本進(jìn)行恢復(fù),然后輸出。該步主要包含了字符和文本行標(biāo)識(shí),曲線分割與傾斜校正,以及扭曲恢復(fù)等。</p><p><b>  后處理</b></p><p>  扭曲恢復(fù)后的圖像有

63、明顯的信息丟失,后處理將最大限度的保存處理后的結(jié)果,并盡可能的進(jìn)行信息補(bǔ)充與恢復(fù),主要包括斷筆的修復(fù)和背景色的載入。</p><p>  扭曲恢復(fù)技術(shù)的原理及具體實(shí)現(xiàn)在第三章至第五章中做了詳細(xì)描述。</p><p>  3.1.2需求分析與系統(tǒng)設(shè)計(jì)</p><p><b>  1、需求分析</b></p><p>  (

64、1)目的:對扭曲的文檔圖像進(jìn)行一定的恢復(fù)。</p><p> ?。?)范圍:通過照相、掃描、復(fù)印等獲取的扭曲的文檔圖像。</p><p>  (3)系統(tǒng)開發(fā)環(huán)境:</p><p>  操作系統(tǒng):Window XP professional.</p><p>  開發(fā)環(huán)境及語言:Visual Studio 2005 、C#</p>

65、<p><b>  2、系統(tǒng)設(shè)計(jì)</b></p><p><b> ?。?)用戶界面設(shè)計(jì)</b></p><p><b>  圖3-2 用戶界面</b></p><p><b> ?。?)主菜單設(shè)計(jì)</b></p><p>  圖3-3 主菜

66、單界面</p><p>  扭曲恢復(fù)處理的菜單主要包括預(yù)處理(Preprocessing)、扭曲恢復(fù)(Dewarping)、后處理(POstprocessing)以及過程(ProGress),如圖3。 其中,預(yù)處理中包含了噪聲去除、圖像去色、和圖像二值化;扭曲恢復(fù)包括文本行與字符標(biāo)識(shí)、曲線分割與傾斜校正、字符平移;后處理則是斷筆修復(fù)及背景載入;過程主要對處理過程的結(jié)果進(jìn)行呈現(xiàn),具體如圖3-4。</p>

67、<p><b>  圖3-4 過程菜單</b></p><p>  3.2文檔圖像預(yù)處理</p><p><b>  3.2.1圖像去色</b></p><p>  圖像去色就是將圖像的顏色信息去掉,轉(zhuǎn)換成灰度圖像。由于本課題選取了合理的開發(fā)環(huán)境,可以容易地將各種格式的圖像轉(zhuǎn)換為易于像素計(jì)算的位圖。然后利用公

68、式(3-1),將彩圖轉(zhuǎn)換為灰度圖像。</p><p>  Gray = 0.11 * Red + 0.59 * Green + 0.3 * Blue(3-1)</p><p>  實(shí)驗(yàn)表明,該方法灰度處理的效果較好,如圖3-5-圖3-6。</p><p><b>  (b)</b></p><p>  圖3-5

69、 彩色圖像的灰度化:(a)處理前 (b)處理后</p><p><b>  (a)</b></p><p><b> ?。╞)</b></p><p>  圖3-6 文檔圖像的灰度化:(a)處理前 (b)處理后</p><p><b>  3.2.2噪聲消除</b></p

70、><p>  圖像噪聲是干擾圖像正常顯示的無用信息,給圖像的處理帶來很大的麻煩。因此在圖像預(yù)處理中都會(huì)針對性的將噪聲消除。</p><p>  3.2.2.1噪聲消除的方法</p><p>  消除噪聲的經(jīng)典方法很多,下面簡要介紹其中的幾種:</p><p><b>  1、均值濾波器</b></p><

71、p>  它是用一個(gè)有奇數(shù)點(diǎn)的滑動(dòng)窗口在圖像上滑動(dòng),將窗口中心點(diǎn)對應(yīng)的圖像像素點(diǎn)的灰度值用窗口內(nèi)的各個(gè)點(diǎn)的灰度值的平均值代替,如果滑動(dòng)窗口規(guī)定了在取均值過程中窗口各個(gè)像素點(diǎn)所占的權(quán)重,也就是各個(gè)像素點(diǎn)的系數(shù),這時(shí)候就稱為加權(quán)均值濾波。</p><p>  2、自適應(yīng)維納濾波器</p><p>  它能根據(jù)圖像的局部方差來調(diào)整濾波器的輸出,局部方差越大,濾波器的平滑作用越強(qiáng)。它的最終目標(biāo)

72、是使恢復(fù)圖像f^(x,y)與原始圖像f(x,y)的均方誤差e2=E[( f(x,y)- f^ (x,y)) 2]最小。該方法的濾波效果比均值濾波器效果要好,對保留圖像的邊緣和其他高頻部分很有用,不過計(jì)算量較大。維納濾波器對具有白噪聲的圖像濾波效果最佳。</p><p><b>  3、中值濾波器</b></p><p>  它是一種常用的非線性平滑濾波器,其基本原理是

73、把數(shù)字圖像或數(shù)字序列中一點(diǎn)的值用該點(diǎn)的一個(gè)領(lǐng)域中各點(diǎn)值的中值代換。其主要功能消除孤立的噪聲點(diǎn),所以中值濾波對于濾除圖像的椒鹽噪聲非常有效。中值濾波器可以做到既去除噪聲又能保護(hù)圖像的邊緣,從而獲得較滿意的復(fù)原效果,而且,在實(shí)際運(yùn)算過程中不需要圖像的統(tǒng)計(jì)特性,這也帶來不少方便,但對一些細(xì)節(jié)多,特別是點(diǎn)、線、尖頂細(xì)節(jié)較多的圖像不宜采用中值濾波的方法。</p><p>  3.2.2.2噪聲消除的實(shí)現(xiàn)</p>

74、<p>  我們采用了加權(quán)均值濾波器對噪聲進(jìn)行消除,參考公式(3-2)。其算法偽代碼如下:</p><p>  private Bitmap NoiseRemoving()</p><p><b>  {</b></p><p>  for (int i = 0; i < W; i++)//當(dāng)前圖像寬度為W,高度

75、為H</p><p>  for (int j = 0; j < H; j++)</p><p><b>  {</b></p><p>  獲取當(dāng)前點(diǎn)的顏色cColor;</p><p>  調(diào)用函數(shù)get33Paras()獲取當(dāng)前點(diǎn)的均值aveGray與方差variance;</p><p&

76、gt;  if (variance != 0)//方差不為零</p><p><b>  {</b></p><p>  調(diào)用get33aveVariance()獲取當(dāng)前點(diǎn)的均差A(yù)veVariance;</p><p>  dRGB = aveGray+((variance-AveVariance)*(cColor.R-aveGra

77、y)/variance);</p><p>  利用以上公式求出當(dāng)前點(diǎn)的灰度iRGB;</p><p>  將當(dāng)前點(diǎn)設(shè)置為求出的iRGB;</p><p><b>  }</b></p><p><b>  else</b></p><p>  設(shè)置為原來的灰度值;</

78、p><p><b>  }</b></p><p><b>  }</b></p><p>  3.2.2.3實(shí)驗(yàn)結(jié)果與分析</p><p>  通過上述算法處理,噪聲消除后的實(shí)驗(yàn)結(jié)果如圖3-7。</p><p><b> ?。╝)</b></p>

79、;<p><b>  (b)</b></p><p>  圖3-7 噪聲消除:(a)處理前 (b)處理后</p><p>  由于圖3-7(a)圖片質(zhì)量較高,噪聲較少,因此處理結(jié)果的改進(jìn)在肉眼看來不是很明顯。但當(dāng)我們處理的圖片中噪聲較多的時(shí)候,噪聲處理是必須的,而且效果較為明顯,如圖3-8。</p><p> ?。╝)

80、(b)</p><p>  圖3-8 較多噪聲消除:(a)處理前 (b)處理后</p><p>  3.2.3圖像二值化</p><p>  圖像二值化方法很多,大致分為全局閾值二值化和局部自適應(yīng)閾值二值化。不同的二值化方法得出的結(jié)果也相差甚遠(yuǎn),全局閾值二值化無論從算法時(shí)空復(fù)雜度還是實(shí)現(xiàn)難易都很簡單,但效果不理想;局部自適應(yīng)閾值二值化算法復(fù)雜度較高,實(shí)現(xiàn)復(fù)雜,

81、但效果較好。因此,如何選擇合適的二值化算法至關(guān)重要。經(jīng)過試驗(yàn)對比,這里選擇文獻(xiàn)[11]提出的二值化方法。</p><p>  3.2.3.1二值化算法</p><p><b>  1、算法步驟</b></p><p>  本文采用的二值化方法分為以下幾步:</p><p>  (1)噪聲消除,灰度值圖像I經(jīng)濾波去噪處理成

82、灰度值圖像II,如公式: </p><p><b>  (3-2)</b></p><p>  這里的濾波去噪在上一節(jié)的噪聲處理中已完成。</p><p> ?。?)以文獻(xiàn)[12]的方法,獲取前景區(qū)域的粗略估算。其中閾值的確定有公式:</p><p>  T=m+( 1-k*( 1-S/R))

83、 (3-3)</p><p>  式中m為均值,S為局部標(biāo)準(zhǔn)差,R為動(dòng)態(tài)標(biāo)準(zhǔn)差(取128),k=0.2/0.5 [0,1]。</p><p> ?。?)計(jì)算圖像II的背景區(qū)域B,如下公式:</p><p><b> ?。?-4)</b></p><p> ?。?)通過背景表面B與圖像II的組合預(yù)測,確定最后閾值d,

84、進(jìn)行二值化,采用如下公式:</p><p><b> ?。?-5)</b></p><p><b>  2、算法實(shí)現(xiàn)</b></p><p> ?。?)Sauvola前景估算</p><p>  private Bitmap SauvolaBinarization()</p><

85、p><b>  {</b></p><p>  for (int i = 1; i < Bmp.Width-1; i++)</p><p>  for (int j = 1; j < Bmp.Height-1; j++)</p><p><b>  {</b></p><p&g

86、t;  調(diào)用函數(shù)get33Paras()求出相關(guān)參數(shù)m和S,再利用以下公式求出閾值T;</p><p>  T = 0.9 * m + (1 - 0.2 * (1 - S / R));//參數(shù)意義詳見公式(3-3)</p><p>  if (Bmp.GetPixel(i, j).R > T)//當(dāng)前點(diǎn)灰度大于閾值</p><p>  將該點(diǎn)設(shè)置為背

87、景色;</p><p><b>  else</b></p><p>  將該點(diǎn)設(shè)置為前景色;</p><p><b>  }</b></p><p><b>  }</b></p><p><b> ?。?)背景預(yù)測</b><

88、;/p><p>  利用原圖及前景圖的像素距離進(jìn)行背景預(yù)測,偽代碼如下:</p><p>  private Bitmap getBG(Bitmap prebmp, Bitmap frontbmp)</p><p><b>  {</b></p><p>  for (int i = 1; i < curBmp.Wid

89、th-1; i++)</p><p>  for (int j = 1; j < curBmp.Height-1; j++)</p><p><b>  {</b></p><p>  調(diào)用函數(shù)求出前景閾值T;</p><p>  if (curBmp.GetPixel(i, j).R > T)//

90、公式(3-4)的兩分支</p><p>  nColor = curBmp.GetPixel(i, j);</p><p><b>  else</b></p><p><b>  {</b></p><p>  調(diào)用getMotherAndSon()求公式(3-4)中S(x,y)=1的分支中的分母

91、M和分子S;</p><p>  根據(jù)公式B=S/M,求出背景灰度igray,并保存;</p><p>  nColor = Color.FromArgb(nColor.A, igray, igray, igray);</p><p><b>  }</b></p><p>  newBmp.SetPixel(i, j,

92、 nColor);//設(shè)置當(dāng)前顏色</p><p><b>  }</b></p><p>  } </p><p><b> ?。?)二值化</b></p><p>  由前景圖和背景圖的估算確定最終閾值,采用公式(3-5)對圖像進(jìn)行二值化,具體代

93、碼不再贅述,這里給出聲明。另外上述算法調(diào)用了函數(shù)get33Paras()和getMotherAndSon(),前者用于求當(dāng)前點(diǎn)3*3矩陣的灰度均值和方差,后者主要求公式(3-4)中S(x,y)=1的分支中的分母和分子,其聲明如下:</p><p>  private Bitmap GatosBianrization(Bitmap preBmp, Bitmap bgBmp, Bitmap frontBmp);<

94、;/p><p>  private void get33Paras(Bitmap bmp, int x, int y, Double[] data);</p><p>  private void getMotherAndSon(Bitmap prebmp, Bitmap bmp, int x, int y, int windowW, int windowH, </p><

95、p>  int[] motherAndSon);</p><p>  3.2.3.2實(shí)驗(yàn)結(jié)果與分析</p><p>  實(shí)驗(yàn)證明,本文采用的二值化方法在對文檔圖像進(jìn)行處理時(shí),時(shí)間復(fù)雜度較全局閾值二值化要偏高,但其處理效果較好,這對后續(xù)字符和文本行標(biāo)識(shí)至關(guān)重要。以圖3-6(b)作為處理對象,進(jìn)行實(shí)驗(yàn)結(jié)果對比,如圖3-9。</p><p><b> ?。?/p>

96、a)</b></p><p><b>  (b)</b></p><p><b> ?。╟)</b></p><p>  圖3-9 文檔圖像二值化:(a)原圖 (b)全局閾值二值化 (c)本文采用的方法</p><p><b>  3.3本章小結(jié)</b></p

97、><p>  本章主要介紹了扭曲恢復(fù)技術(shù)的系統(tǒng)分析與設(shè)計(jì),及文檔圖像的預(yù)處理。經(jīng)過預(yù)處理,輸入的扭曲文檔圖像將轉(zhuǎn)化為質(zhì)量較好的二值化圖像,為下一章的扭曲恢復(fù)做好鋪墊。</p><p>  第四章文檔圖像的扭曲恢復(fù)</p><p>  本章是整個(gè)扭曲恢復(fù)技術(shù)的重點(diǎn),也是本文研究工作中的創(chuàng)新點(diǎn)。這里從二值化圖像的分析開始,結(jié)合對文檔特征的觀察與分析,經(jīng)過字符和文本行標(biāo)識(shí)、

98、曲線分割與傾斜校正、以及字符平移的幾步處理,完成對二值圖像的扭曲恢復(fù)。</p><p>  4.1字符和文本行標(biāo)識(shí)</p><p>  字符標(biāo)識(shí),是指在文檔圖像中將具有獨(dú)立意義的字符用特殊符號(hào)表示出來,如英文單詞、中文漢字等。實(shí)際上,在缺乏詞庫的情況下完全準(zhǔn)確的標(biāo)識(shí)出字符是不可能的。因此只能結(jié)合文檔特征,通過參數(shù)設(shè)置標(biāo)識(shí)出盡可能多的獨(dú)立字符。</p><p>  文

99、本行標(biāo)識(shí),是指將文檔圖像中的文本行用特殊符號(hào)表示出來。文本行標(biāo)識(shí)的方法很多,如基于直線擬合[13]、基于連通性檢測[14]和基于投影等。</p><p>  本文是通過連通性檢測,并用不同顏色對各行各字加以區(qū)分。</p><p>  4.1.1標(biāo)識(shí)的步驟</p><p>  文獻(xiàn)[15]已提出了標(biāo)識(shí)的算法,該算法中的檢測參數(shù)只適用于西文。本課題處理對象為扭曲的中文文

100、檔圖像,針對該對象的特點(diǎn),本文采用基于連通性檢測的標(biāo)識(shí)方法,主要參考文獻(xiàn)[15]和[16],并在此基礎(chǔ)上調(diào)整,通過試驗(yàn)對比,找出合適的字符和文本行標(biāo)識(shí)方法。該方法分為以下兩個(gè)步驟:</p><p> ?。?)邊界歸零。將圖像的邊界像素歸一化為背景色,這種設(shè)置類似哨兵,可降低算法實(shí)現(xiàn)的復(fù)雜性。</p><p> ?。?)一次掃描標(biāo)識(shí)。按照從左至右,從上到下原則,從圖像的起始像素開始掃描。過程

101、中,利用前景像素的連通性,對當(dāng)前像素的8個(gè)相連像素進(jìn)行判斷,若存在一個(gè)連通的點(diǎn),則再對該點(diǎn)進(jìn)行遞歸判斷,直至8個(gè)相連像素中均無連通像素為止,后用合適的顏色加以標(biāo)識(shí)。這里,連通像素的參數(shù)設(shè)置為3*3矩陣,也可設(shè)置其他參數(shù),即可進(jìn)行不同大小的文本塊標(biāo)識(shí),若參數(shù)合適,可直接將文本行標(biāo)識(shí)出。</p><p>  4.1.2標(biāo)識(shí)算法偽代碼</p><p>  標(biāo)識(shí)算法很重要,因此這將對后續(xù)的曲線分割

102、,以及字符平移的影響很大,算法偽代碼如下:</p><p>  /// 輸入:邊界歸零圖像,標(biāo)識(shí)參數(shù)[字檢測(?。?---->(大)行檢測]</p><p>  /// 輸出:標(biāo)志后的圖像</p><p>  private Bitmap Label(Bitmap Bmp, int size)</p><p><b>  {&

103、lt;/b></p><p>  初始化標(biāo)志圖像boolBmp;</p><p>  for (int j = 0; j < Bmp.Height; j++) //字塊標(biāo)示</p><p><b>  {</b></p><p>  for (int i = 0; i < Bmp.Width;

104、i++)</p><p><b>  {</b></p><p>  if (ZBColor.R == 0) //如果為前景色</p><p><b>  {</b></p><p>  記錄當(dāng)前點(diǎn)curr;</p><p>  如果當(dāng)前點(diǎn)處理過,或者堆棧中已

105、經(jīng)含有堆棧,則continue操作;</p><p>  通過調(diào)用getConnected()函數(shù)將連通性的點(diǎn)壓入堆棧Stack;</p><p>  隨機(jī)生成一種顏色RdColor;</p><p>  while (Stack.Count != 0)//堆棧不為空</p><p><b>  {</b><

106、/p><p>  將堆棧中的點(diǎn)設(shè)置為RdColor;</p><p>  標(biāo)志圖像boolBmp設(shè)置為臟標(biāo)記,標(biāo)明改點(diǎn)已處理過;</p><p><b>  }</b></p><p><b>  }</b></p><p><b>  else</b>&l

107、t;/p><p><b>  否則設(shè)置為原色;</b></p><p><b>  }</b></p><p><b>  }</b></p><p><b>  }</b></p><p>  4.1.3實(shí)驗(yàn)結(jié)果與分析</p&g

108、t;<p>  以圖3-9(c)為處理對象進(jìn)行標(biāo)識(shí),結(jié)果如圖4-1:</p><p><b> ?。╝)</b></p><p><b> ?。╞)</b></p><p>  圖4-1 標(biāo)識(shí)圖像:(a)字符標(biāo)識(shí) (b)文本行標(biāo)識(shí)</p><p>  標(biāo)識(shí)采用的是字符連通性原理,因此參

109、數(shù)的設(shè)置直接影響到標(biāo)識(shí)的效果。由于漢字的復(fù)雜性,在字符標(biāo)識(shí)的過程中,參數(shù)過小,容易出現(xiàn)一個(gè)漢字被標(biāo)識(shí)為多色(理想情況是一字一色);反之則會(huì)出現(xiàn)多個(gè)漢字標(biāo)識(shí)為一色,如圖4-2。行標(biāo)識(shí)同樣存在這種情況(如圖4-3),如果參數(shù)設(shè)置合適即可標(biāo)識(shí)出整行。</p><p>  圖4-2 字標(biāo)識(shí)的兩種情況</p><p>  圖4-3 行標(biāo)識(shí)的兩種情況</p><p>  因此,

110、需要通過不斷的調(diào)試與試驗(yàn)找出合適的參數(shù)。通過試驗(yàn)對比,本文針對字符和文本行標(biāo)識(shí)設(shè)置的參數(shù)分別為k=3和k=18。</p><p>  4.2曲線分割與傾斜校正</p><p>  已知文字行方向,將連通體合并成文字行,并用直線逼近。該直線的傾斜角即為文字行的傾斜角。對整幅圖像的文字行作同樣分析,選出出現(xiàn)頻率最高的角度,即可作為圖像的傾斜角。該方法是基于統(tǒng)計(jì)的原理,用出現(xiàn)頻率最高的角度代替所

111、有文本行的傾斜角度。對于接近整體傾斜的文檔圖像(圖4-4),這種方法是合理的,且處理效率較高。然而對于扭曲的文檔圖像,甚至扭曲程度較高的圖像(圖4-5),該方法適用性就大大降低。</p><p>  圖4-4 傾斜的文檔圖像</p><p>  圖4-5 扭曲的文檔圖像</p><p>  還有一種思想則是取該文本行基線曲線上被認(rèn)為是最有代表性的切線斜率直接代替整個(gè)

112、曲線斜率。</p><p>  本文采用極限思想,即當(dāng)截取曲線的片段小至一定程度時(shí),我們認(rèn)為截取的片段為直線線段。比起以上兩種方法,容易知道,這種極限思想無論是在整體傾斜的情況下還是在扭曲程度比較高的情況下,均比較合理。采用該思想,可將復(fù)雜的曲線處理轉(zhuǎn)化為直線處理,因?yàn)楸唤厝〉钠问潜徽J(rèn)為是傾斜非扭曲的。</p><p>  具體做法是采用行內(nèi)逐字跟蹤,記錄各漢字包圍框的上下邊界點(diǎn),也即是

113、對已知點(diǎn)求插值曲線。無論是線性,還是扭曲,求出的曲線都是文本行基線的最好描述,因此是合理的。再通過兩漢字間的兩點(diǎn)確定一直線,測定該直線參數(shù)并進(jìn)行傾斜校正,以此類推至處理完該行整條曲線,而后拓展至整個(gè)文檔圖像。</p><p>  圖4-6 傾斜校正對比</p><p>  圖4-6是以圖3-7(b)為對象進(jìn)行曲線分割與傾斜校正的對比情況,圖中的劃線是由兩個(gè)標(biāo)識(shí)字符確定的直線,在文本行曲線中

114、,它被認(rèn)為是線性的。通過對該片段直線的分析測定,可以對兩標(biāo)識(shí)字符進(jìn)行傾斜校正,對比效果如圖中圈出A-E組的單詞。</p><p><b>  4.3字符平移</b></p><p>  4.3.1平移的思想</p><p>  在極限思想下,行內(nèi)很多詞組被認(rèn)為是傾斜的,經(jīng)校正后,該詞組處于類水平位置,但整行沒有在同一水平位置上(如圖4-6)。這

115、就需要將同一行的字符或詞組按照該行的基準(zhǔn)點(diǎn)進(jìn)行平移,至該行內(nèi)所有字符或詞組處于該水平位置。經(jīng)過校正和平移處理后即得到扭曲恢復(fù)的二值化文檔圖像。</p><p>  4.3.2平移算法偽代碼</p><p>  扭曲恢復(fù)分為兩步,第一步是傾斜校正,既是將文本行基線曲線進(jìn)行合理分割,然后對分割的片段做傾斜校正,如4.2節(jié)描述。</p><p>  第二步是字符平移,將同

116、行的字符平移至同一水平位置,偽代碼描述如下:</p><p>  private Bitmap Shift(Bitmap RotateBmp,Bitmap Bmp,Bitmap boolBmpL,Bitmap boolBmpW)</p><p><b>  {</b></p><p>  for (int j = 0; j < Bmp.H

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論