版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、<p> 印刷體漢字識(shí)別方法的研究</p><p> 作 者 姓 名 xx </p><p> 專 業(yè) 電子信息工程 </p><p> 指導(dǎo)教師姓名 </p><p> 專業(yè)技術(shù)職務(wù) &
2、lt;/p><p><b> 目 錄</b></p><p><b> 摘 要1</b></p><p><b> 第一章 緒論3</b></p><p> 1.1漢字識(shí)別研究的意義3</p><p> 1.2印刷體漢字識(shí)別研究的背
3、景3</p><p> 第二章 漢字識(shí)別技術(shù)4</p><p> 2.1漢字識(shí)別概述4</p><p> 2.2漢字識(shí)別的原理4</p><p> 2.3漢字識(shí)別的一般方法5</p><p> 2.4 印刷體漢字識(shí)別問(wèn)題與困難6</p><p> 第三章 印刷體漢字識(shí)
4、別的研究7</p><p> 3.1 印刷體漢字識(shí)別技術(shù)的發(fā)展歷程7</p><p> 3.2 印刷體漢字識(shí)別的原理分析及算法研究8</p><p> 3.2.1 預(yù)處理9</p><p> 3.2.2 漢字特征提取11</p><p> 3.2.3 漢字的分類識(shí)別13</p>&l
5、t;p> 3.2.4 后處理15</p><p> 3.3 印刷體漢字識(shí)別技術(shù)分析16</p><p> 3.3.1 結(jié)構(gòu)模式識(shí)別方法16</p><p> 3.3.2 統(tǒng)計(jì)模式識(shí)別方法17</p><p> 3.4 印刷體漢字識(shí)別的分類19</p><p> 第四章 系統(tǒng)的實(shí)現(xiàn)與仿真1
6、9</p><p> 4.1系統(tǒng)的實(shí)現(xiàn)19</p><p> 4.2系統(tǒng)的仿真20</p><p> 第五章 總結(jié)與展望23</p><p><b> 5.1 總結(jié)23</b></p><p><b> 5.2 展望23</b></p>&
7、lt;p><b> 參考文獻(xiàn)25</b></p><p><b> 附 錄26</b></p><p><b> 致 謝34</b></p><p><b> 摘 要</b></p><p> 漢字識(shí)別技術(shù)是一種高速、自動(dòng)的信息錄
8、入手段,成為未來(lái)計(jì)算機(jī)的重要職能接口,還可以作為辦公自動(dòng)化、新聞出版、機(jī)器翻譯等領(lǐng)域的理想輸入方式,有著廣泛的應(yīng)用前景。漢字識(shí)別的最終目的是使中文信息能更自然,更方便地輸入計(jì)算機(jī),以便于進(jìn)一步處理.實(shí)際生活中,大量的書信、報(bào)紙、雜志內(nèi)容需要輸入計(jì)算機(jī),這就是印刷體漢字識(shí)別要解決的問(wèn)題。本文首先就漢字識(shí)別研究的意義及背景作了綜述。第二章介紹了漢字識(shí)別的基本過(guò)程以及印刷體漢字識(shí)別研究存在的問(wèn)題與困難。第三章對(duì)印刷體漢字識(shí)別作了詳細(xì)闡述,論述
9、了印刷體漢字識(shí)別的原理和預(yù)處理、特征抽取與分析、后處理過(guò)程;著重分析了統(tǒng)計(jì)模式識(shí)別方法、 結(jié)構(gòu)模式識(shí)別方法以及匹配識(shí)別;第四章用Matlab對(duì)系統(tǒng)進(jìn)行了仿真;最后闡明了漢字識(shí)別技術(shù)研究今后發(fā)展的方向。</p><p> 關(guān)鍵詞:印刷體漢字識(shí)別 特征提取 匹配識(shí)別 統(tǒng)計(jì)模式識(shí)別 Matlab仿真</p><p><b> ABSTRACT</b></p
10、><p> Chinese character recognition technology is a kind of automatic high-speed, information input method, become the important functions of the computer interface, still can as office automation, the press a
11、nd publishing, machine translation, etc, the ideal input has wide application prospects. The aim of Chinese character recognition is to make the Chinese input more natural and convenient so that the computer could proces
12、s Chinese information more easily. In practice, large volume of letters, news</p><p> Key words: Printed Chinese character recognition; feature extraction; </p><p> Matching recognition; St
13、atistical pattern recognition; Matlab Simulation </p><p><b> 第一章 緒論</b></p><p> 1.1漢字識(shí)別研究的意義</p><p> 漢字已有數(shù)千年的歷史,是中華民族文化的重要結(jié)晶,閃爍著中國(guó)人民智慧的光芒。同時(shí)也是世界上使用人數(shù)最多和數(shù)量最多的文字之一。現(xiàn)如
14、今,漢字印刷材料的數(shù)量大大增加,一些專業(yè)單位如新聞社、圖書館、古籍出版社、檔案館等所接觸的印刷材料更是浩如煙海,信息量均是爆炸性增長(zhǎng),畢竟閱讀印刷材料更為符合人的自然閱讀習(xí)慣。然而,漢字是非字母化、非拼音化的文字,因此,如何將漢字快速高效地輸入計(jì)算機(jī),是信息處理的一個(gè)關(guān)鍵問(wèn)題[1],也是關(guān)系到計(jì)算機(jī)技術(shù)能否在我國(guó)真正普及的關(guān)鍵問(wèn)題,更是傳播與弘揚(yáng)中華民族悠久歷史文化的關(guān)鍵問(wèn)題。但人工鍵入速度不僅慢而且勞動(dòng)強(qiáng)度大,一般的使用者每分鐘只能輸
15、入40—50個(gè)漢字。這種方法不適用于需要處理大量文字資料的辦公自動(dòng)化、文檔管理、圖書情報(bào)管理等場(chǎng)合。而且隨著勞動(dòng)力價(jià)格的升高,利用人工方法進(jìn)行漢字輸入也將面臨經(jīng)濟(jì)效益的挑戰(zhàn)。因此,對(duì)于大量已有的文檔資料,漢字自動(dòng)識(shí)別輸入就成為了最佳的選擇。因此,漢字識(shí)別技術(shù)也越來(lái)越受到人們的重視。漢字識(shí)別技術(shù)已經(jīng)呈現(xiàn)出了廣泛的應(yīng)用前景,它主要應(yīng)用在中文信息處理、辦公室自動(dòng)化、機(jī)器翻譯、人工智能等高技術(shù)領(lǐng)域。漢字識(shí)別是模式識(shí)別的重要應(yīng)用領(lǐng)域,也是光<
16、;/p><p> 1.2印刷體漢字識(shí)別研究的背景</p><p> 印刷體漢字識(shí)別是漢字識(shí)別研究中的一個(gè)重要課題。在以往的研究中,均十分重視印刷體漢字特征點(diǎn)提取的工作。所謂特征點(diǎn),是指反映漢字形體特征整體分布狀況的關(guān)鍵點(diǎn)集,即構(gòu)成漢字筆劃骨架線的端點(diǎn)、折點(diǎn)、交點(diǎn)等。如圖1-1所示漢字圖像“大”:漢字圖像“大”的特征點(diǎn)。圓圈標(biāo)出的點(diǎn)為特征點(diǎn)表示</p><p> 圖
17、1-1 圖像“大”特征點(diǎn)</p><p> 通常,對(duì)大多數(shù)結(jié)構(gòu)穩(wěn)定的漢字,一旦獲得了正確的特征點(diǎn)集,就可能順利地按照一定的策略和步驟(比如漢字的連接筆劃、結(jié)構(gòu)匹配等),將漢字形體劃歸為正確的字類,印刷體漢字識(shí)別的正確性就能夠得到保證。當(dāng)前,印刷體漢字特征點(diǎn)的識(shí)別效率還有進(jìn)一步改進(jìn)的空間。特征點(diǎn)提取方法屬于句法結(jié)構(gòu)模式識(shí)別方法之一。</p><p> 另一方面,隨著數(shù)字圖像處理技術(shù)的發(fā)
18、展和實(shí)際應(yīng)用的需求,許多問(wèn)題不要求其輸出結(jié)果是一幅完整圖像本身,而是將經(jīng)過(guò)特定處理的圖像,再分割和描述,提取有效的特征,進(jìn)而加以判決分類。這種技術(shù)就是圖像的模式識(shí)別。隨著數(shù)字圖像處理和模式識(shí)別技術(shù)的不斷發(fā)展與廣泛應(yīng)用,圖像的編碼技術(shù)得到了飛速發(fā)展,并以其優(yōu)良的特性在圖像處理領(lǐng)域得到越來(lái)越多的運(yùn)用。</p><p> 第二章 漢字識(shí)別技術(shù)</p><p><b> 2.1漢字
19、識(shí)別概述</b></p><p> 漢字識(shí)別(CCR:Chinese Character Recognition)是用電子計(jì)算機(jī)自動(dòng)辨識(shí)印刷在紙上和人寫在紙(或者介質(zhì))上的漢字。漢字識(shí)別技術(shù)是計(jì)算機(jī)智能接口的一個(gè)重要組成部分。從學(xué)科上劃分.漢字識(shí)別屬于模式識(shí)別和人工智能的范疇。它涉及到模式識(shí)別和圖像處理、人工智能、形式語(yǔ)言學(xué)、模糊數(shù)學(xué)等眾多學(xué)科,是一門綜合性的技術(shù)。</p><p
20、> 2.2漢字識(shí)別的原理</p><p> 漢字識(shí)別的基本思想是匹配判別。漢字識(shí)別可簡(jiǎn)單的分為兩個(gè)過(guò)程:學(xué)習(xí)(訓(xùn)練)過(guò)程和識(shí)別過(guò)程。學(xué)習(xí)過(guò)程就是讓計(jì)算機(jī)通過(guò)樣本學(xué)習(xí)或訓(xùn)練提取出每個(gè)漢字的特征并存儲(chǔ)起來(lái),作為標(biāo)準(zhǔn)特征庫(kù),即模板庫(kù)。識(shí)別過(guò)程中,計(jì)算機(jī)首先按學(xué)習(xí)過(guò)程中的特征提取方法提取出輸入模式的特征,然后再與標(biāo)準(zhǔn)特征庫(kù)中的特征進(jìn)行匹配,匹配程度最大的漢字即為識(shí)別結(jié)果。因此,如何確定表達(dá)待識(shí)別漢字模式的最佳特
21、征(組合優(yōu)化特征),如何進(jìn)行特征匹配,從而進(jìn)行高效、快速的識(shí)別,是漢字識(shí)別技術(shù)的關(guān)鍵所在。</p><p> 抽取代表未知漢字模式本質(zhì)的表達(dá)形式(如漢字的各種特征)和預(yù)先存儲(chǔ)在機(jī)器中的標(biāo)準(zhǔn)漢字模式表達(dá)形式的集合(稱為字典)逐一匹配,用一定的準(zhǔn)則進(jìn)行判別,在機(jī)器存儲(chǔ)的標(biāo)準(zhǔn)漢字模式表達(dá)形式的集合中,找出最接近輸入模式的表達(dá)形式,該表達(dá)模式對(duì)應(yīng)的字就是識(shí)別結(jié)果。</p><p> 圖2-1
22、 漢字識(shí)別原理框圖</p><p> 漢字識(shí)別原理如圖2-1所示:光電掃描器掃描紙上的文字,產(chǎn)生模擬電信號(hào),經(jīng)模數(shù)轉(zhuǎn)器轉(zhuǎn)換為由灰度值表達(dá)的數(shù)字信號(hào),并送至預(yù)處理環(huán)節(jié)。預(yù)處理的內(nèi)容和要求取決于識(shí)別方法,一般包括行、字切分,二值化,細(xì)化或抽取輪廓,平滑,規(guī)范化等等。經(jīng)過(guò)預(yù)處理,漢字模式成為規(guī)范化的二值數(shù)字點(diǎn)陣信息,其中“l(fā)”部分反映了漢字筆劃部分,“0”部分是文字的空白背景。對(duì)該二值化漢字點(diǎn)陣,抽取一定的表達(dá)形式后
23、,和存儲(chǔ)在字典中的已知標(biāo)準(zhǔn)漢字表達(dá)形式匹配判別,就可以識(shí)別出輸入的未知漢字。</p><p> 2.3漢字識(shí)別的一般方法</p><p> 漢字的模式表達(dá)形式有多種,每種形式又可以選擇不同的特征。每種特征又有不同的抽取方法。這些就使得判別方法和準(zhǔn)則有不同,乃至形成多種不同形式的漢字識(shí)別方法。這些方法可以歸結(jié)為兩類一般性處理方法——統(tǒng)計(jì)決策的方法和句法結(jié)構(gòu)的方法。</p>
24、<p> 1. 統(tǒng)計(jì)決策的方法(statistical decision method)</p><p> 在漢字識(shí)別中,每個(gè)字的特征不是一維,而是一個(gè)m維的特征向量;字典的每類標(biāo)準(zhǔn)模板也不是一個(gè),而是一批;判別輸入文字屬于哪一類時(shí),也不是只把它的特征向量和字典內(nèi)標(biāo)準(zhǔn)特征向量逐一簡(jiǎn)單比較從而得到完全相同的結(jié)果才能分類識(shí)別,而是根據(jù)某種判別準(zhǔn)則,相似到一定程度而且彼此又能區(qū)分時(shí)就可以分類識(shí)別。這些就需
25、要用統(tǒng)計(jì)決策的概念、理論、方法來(lái)指導(dǎo),這就產(chǎn)生了漢字識(shí)別的統(tǒng)計(jì)決策方法。統(tǒng)計(jì)決策的方法分類判別時(shí),常用的判別準(zhǔn)則是距離和類似度,它們是分類識(shí)別的依據(jù)。</p><p> 2. 句法結(jié)構(gòu)的方法(syntactic structure method)</p><p> 在漢字模式中,代表字形本質(zhì)特征的結(jié)構(gòu)信息很重要,研究這類結(jié)構(gòu)信息豐富的模式時(shí),可以用簡(jiǎn)單的子模式(sub pattern
26、)(如筆劃)構(gòu)成多級(jí)結(jié)構(gòu)來(lái)描述一個(gè)復(fù)雜模式(如整個(gè)漢字)。例如把“葉”字先分解為部件“口”和部件“十”,并知道“十”在“口”的右面,再把這兩個(gè)部件分解為筆劃“|”、“”、“一”和“一”、“|”,也知道部件內(nèi)這些筆劃之間相對(duì)位置和連接關(guān)系,這樣就可以把“葉”字表達(dá)成一維的符號(hào)串。若用(、)表示部件的界符,用↓、→、×分別表示部件筆劃間的上下、左右、交叉關(guān)系,則可以把“葉”字表示為符號(hào)串(|→↓一)→(一×|)。漢字
27、是一個(gè)模式,部件則是子模式,而筆劃是一種最簡(jiǎn)單的子模式。組成一個(gè)模式的最簡(jiǎn)單的而且不再分割的子模式叫做基元(Pattern primitive)。上例中,各筆劃以及↓、→、×都是基元,基元根據(jù)一定規(guī)律組合成模式。這種對(duì)于一個(gè)模式。用層層更為簡(jiǎn)單的子模式,最后用基元來(lái)描述的方法,就是結(jié)構(gòu)分析的方法。</p><p> 2.4 漢字識(shí)別問(wèn)題與困難</p><p> 當(dāng)今許多漢字識(shí)
28、別技術(shù)研究者想提升漢字識(shí)別系統(tǒng)的識(shí)別效果都遇到了一些同樣的問(wèn)題[3]。這些問(wèn)題包括漢字量大、漢字結(jié)構(gòu)復(fù)雜、字體字號(hào)多以及相似字多。這也使得漢字識(shí)別難度遠(yuǎn)遠(yuǎn)大于其它語(yǔ)言文字識(shí)別。由于漢字自身的特殊性,研究者也無(wú)法借鑒其它語(yǔ)言特別是西方發(fā)達(dá)國(guó)家的已有的技術(shù)來(lái)識(shí)別漢字。</p><p> ?。?)漢字量特別大,類別繁多</p><p> 我國(guó)1980年公布的國(guó)家標(biāo)準(zhǔn)GB2312.80中第一級(jí)常
29、用漢字共有3755個(gè),第二級(jí)有3008個(gè),兩級(jí)共有6763個(gè)漢字。其中常用漢字有3000至4000個(gè)之多。第一級(jí)漢字使用頻度為99.7%,兩級(jí)漢字總使用頻度為99.99%。一個(gè)漢字識(shí)別系統(tǒng)至少要識(shí)別這些常用漢字才能滿足需求,才具有實(shí)際應(yīng)用價(jià)值。顯然,漢字樣本數(shù)量眾多,這對(duì)一個(gè)系統(tǒng)來(lái)說(shuō)是一種考驗(yàn)。大量的樣本要占據(jù)更多的內(nèi)存空間,更多的尋址時(shí)間,這對(duì)一個(gè)RTS(Real Time Systems)來(lái)說(shuō)是致命的。為了提高識(shí)別速度而采取一些措施
30、之后,又可能會(huì)導(dǎo)致識(shí)別率的降低。這也導(dǎo)致了漢字識(shí)別系統(tǒng)不得不在識(shí)別率和識(shí)別速度之間有個(gè)妥協(xié)。</p><p><b> ?。?)漢字結(jié)構(gòu)復(fù)雜</b></p><p> 印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究漢字是世界上結(jié)構(gòu)最為復(fù)雜的文字之一。它的構(gòu)成方法主要有三種:象形法、會(huì)意法和形聲法。不同的構(gòu)成方法,具備不同的構(gòu)字規(guī)律,這對(duì)采用統(tǒng)一標(biāo)準(zhǔn)處理如此大樣本的漢字集
31、來(lái)既是一大困難。筆畫和部首的不同排列組合,構(gòu)成了表達(dá)不同含義的結(jié)構(gòu)異常復(fù)雜的漢字字符。非字母化,不同于拼字母文字,與世界上常用的其它民族的文字相比,漢字的結(jié)構(gòu)是最為復(fù)雜的。</p><p><b> (3)字體字號(hào)多</b></p><p> 我國(guó)印刷體漢字種類有超過(guò)一百種之多,其中主要以宋體、黑體、楷體和仿宋體為主,其它多為這四種字體的衍生字體。另外,印刷體漢字
32、同一個(gè)字的不同字體即使拓?fù)浣Y(jié)構(gòu)大致相同,但字形點(diǎn)陣還是有很大差別。筆畫的粗細(xì)、長(zhǎng)短、位置及姿態(tài),都有一定的差別,各個(gè)部件(如偏旁、部首與主體)的大小比例與位置,也都有所變異。對(duì)于手寫漢字,這種差別就更大。手寫體有楷體、行書和草書三類,但其自由發(fā)揮度很大,以致識(shí)別難度更大。印刷體漢字的字號(hào)更是繁多,這給漢字歸一化帶來(lái)了一定的計(jì)算量,歸一化后也有可能使得漢字信息損失一部分,這給漢字識(shí)別也帶來(lái)了困難。</p><p>
33、<b> (4)相似字多</b></p><p> 由于我國(guó)漢字種類繁多以及構(gòu)成方法的原因,漢字集中包含了大量的相似字。這些相似字不僅在形狀上、構(gòu)造上相似,而且在筆畫上也相近。例如,“大”和“太”兩個(gè)字只相差一個(gè)短捺,常用的特征提取算法根本無(wú)法區(qū)分這兩個(gè)字的不同之處。這個(gè)相似字區(qū)分的問(wèn)題往往出現(xiàn)在漢字識(shí)別系統(tǒng)的最后一級(jí),也是至關(guān)重要的一級(jí)。</p><p> 第
34、三章 印刷體漢字識(shí)別的研究</p><p> 3.1 印刷體漢字識(shí)別技術(shù)的發(fā)展歷程</p><p> 計(jì)算機(jī)技術(shù)的快速發(fā)展和普及,為文字識(shí)別技術(shù)應(yīng)運(yùn)而生提供了必備條件。加上人們對(duì)信息社會(huì)發(fā)展的要求越來(lái)越高,文字識(shí)別技術(shù)的快速發(fā)展可想而知。印刷體文字的識(shí)別可以說(shuō)很早就成為人們的夢(mèng)想,早在1929年,Taushek就在德國(guó)獲得了一項(xiàng)有關(guān)OCR的專利[4]。為了將多年以來(lái)印刷在紙上的浩如煙
35、海、與日俱增的報(bào)刊雜志、文獻(xiàn)資料和單據(jù)報(bào)表等文字材料輸入計(jì)算機(jī)進(jìn)行信息處理,單靠人工擊鍵輸入,其速度利效率已遠(yuǎn)遠(yuǎn)不能滿足要求,這就迫切需要研制以印刷體漢字識(shí)別為核心的光學(xué)漢字字符閱讀器(Optical Chinese Character Reader,簡(jiǎn)稱OCCR),使印刷體漢字可以高速自動(dòng)地輸入計(jì)算機(jī)。</p><p> 印刷體漢字的識(shí)別最早可以追溯到60年代。1966年,IBM公司的Casey和Nagy發(fā)表
36、了第一篇關(guān)于印刷體漢字識(shí)別的論文[5]。在這篇論文中他們利用簡(jiǎn)單的模板匹配法識(shí)別了l.000個(gè)印刷體漢字。70年代以來(lái),日本學(xué)者做了許多工作,其中有代表性的系統(tǒng)有1977年?yáng)|芝綜合研究所研制的可以識(shí)別2000個(gè)漢字的單體印刷漢字識(shí)別系統(tǒng);80年代初期,日本武藏野電氣研究所研制的可以識(shí)別2300個(gè)多體漢字的印刷體漢字識(shí)別系統(tǒng),代表了當(dāng)時(shí)漢字識(shí)別的最高水平。此外,日本的三洋、松下、理光和富士等公司也有其研制的印刷體漢字識(shí)別系統(tǒng)。這些系統(tǒng)在方
37、法上,大都采用基于數(shù)字變換的匹配方案,使用了大量專用硬件,其設(shè)備有的相當(dāng)于小型機(jī)甚至大型機(jī),價(jià)格極其昂貴,沒(méi)有得到廣泛應(yīng)用。</p><p> 我國(guó)對(duì)印刷體漢字識(shí)別的研究始于70年代末80年代初。大致可以分為三大階段[6]:</p><p> (1)第一階段從70年代末期到80年代末期,主要是算法和方案探索。研究人員提出了用于漢字識(shí)別的各種方法和特征,如特征點(diǎn)方法、漢字周邊特征、漢字的
38、結(jié)構(gòu)元特征等,并在此基礎(chǔ)上成功地研究出一批漢字識(shí)別系統(tǒng)。這一階段是印刷漢字識(shí)別成果倍出的時(shí)期。但是,這些成果還僅僅處于實(shí)驗(yàn)室階段,沒(méi)有轉(zhuǎn)化為產(chǎn)品來(lái)實(shí)際解決印刷漢字的自動(dòng)輸入問(wèn)題。</p><p> (2)第二階段是90年代初期,中文OCR由實(shí)驗(yàn)室走向市場(chǎng),初步實(shí)用。在實(shí)際的漢字識(shí)別輸入應(yīng)用條件下,檢驗(yàn)和考查這些研究成果。而一個(gè)漢字識(shí)別系統(tǒng)能否通過(guò)這一嚴(yán)峻的考驗(yàn),并進(jìn)一步發(fā)展,取決于三個(gè)重要因素:第一該系統(tǒng)能否根
39、掘社會(huì)的發(fā)展,用戶需求的變化,靈活地改進(jìn)或者增加系統(tǒng)功能,以適應(yīng)市場(chǎng)需求;第二該系統(tǒng)是否能在識(shí)別效率、識(shí)別速度和系統(tǒng)資源三者之間協(xié)調(diào)好關(guān)系;第三該系統(tǒng)是否具有足夠高的抗噪性能,以適應(yīng)各種各樣的實(shí)際應(yīng)用壞境。</p><p> ?。?)第三階段也就是目前,主要是印刷體漢字識(shí)別技術(shù)和系統(tǒng)性能的提高,包括漢英雙語(yǔ)混排識(shí)別率的提高和穩(wěn)定性的增強(qiáng)。</p><p> 同國(guó)外相比,我國(guó)的印刷體漢字識(shí)
40、別研究起步較晚。從80年代開(kāi)始,漢字ORC的研究開(kāi)發(fā)一直受到國(guó)家重視,經(jīng)過(guò)科研人員十多年的辛勤努力,印刷體漢字識(shí)別技術(shù)的發(fā)展和應(yīng)用,有了長(zhǎng)足進(jìn)步,從簡(jiǎn)單的單體識(shí)別發(fā)展到多種字體混排的多體識(shí)別,從中文印刷材料的識(shí)別發(fā)展到中英混排印刷材料的雙語(yǔ)識(shí)別。各個(gè)系統(tǒng)可以支持簡(jiǎn)、繁體漢字的識(shí)別,解決了多體多字號(hào)混排文本的識(shí)別問(wèn)題,對(duì)于簡(jiǎn)單的版面可以進(jìn)行有效的定量分析。同時(shí)漢字識(shí)別率已達(dá)到了98%以上。但印刷體漢字識(shí)別系統(tǒng)的研究還要解決好實(shí)用漢字識(shí)別系
41、統(tǒng)所必須解決的一些問(wèn)題,如版面的自動(dòng)分析、行字切分、人機(jī)界面和良好的應(yīng)用環(huán)境等等。</p><p> 3.2 印刷體漢字識(shí)別的原理分析及算法研究</p><p> 漢字識(shí)別實(shí)質(zhì)是解決文字的分類問(wèn)題,一般通過(guò)特征辨別及特征匹配的方法來(lái)實(shí)現(xiàn)。目前漢字識(shí)別技術(shù)按照識(shí)別的漢字不同可以分為印刷體漢字識(shí)別和手寫體漢字識(shí)別。印刷體漢字識(shí)別從識(shí)別字體上可分為單體印刷體漢字識(shí)別(printed char
42、acter recognition)與多體印刷體漢字識(shí)別(multiple printed character recognition) ;手寫體漢字識(shí)別根據(jù)實(shí)時(shí)性又可以分為聯(lián)機(jī)手寫體識(shí)別(on - line handwritten character recognition)和脫機(jī)手寫體識(shí)別(off - line handwritten character recognition)。</p><p> 印刷體
43、漢字識(shí)別的流程[7]如圖3-1所示:</p><p> 圖3-1 漢字識(shí)別流程框圖</p><p> 印刷在紙張上的漢字,通過(guò)用掃描儀掃描或者數(shù)碼相機(jī)拍攝等光學(xué)方式輸入后得到灰度圖像(Grayscale image)或者二值圖像(Binary image),然后利用各種模式識(shí)別算法對(duì)漢字圖像進(jìn)行分析,提取漢字的特征,與標(biāo)準(zhǔn)漢字進(jìn)行匹配判別,從而達(dá)到識(shí)別漢字的目的。印刷體漢字識(shí)別技術(shù)主
44、要包括預(yù)處理、特征提取、匹配識(shí)別和后處理等步驟。預(yù)處理是在所有識(shí)別處理之前進(jìn)行的,它將從各種不同輸入方式獲得的漢字圖像中的干擾因素降到最低。隨著漢字識(shí)別技術(shù)的深入研究,漢字的特征提取的算法越來(lái)越多,如何選擇特征和如何組合優(yōu)化特征已經(jīng)成了研究的重要領(lǐng)域。匹配識(shí)別技術(shù)涉及到分類器的設(shè)計(jì)等重要問(wèn)題,這也是非常重要的一個(gè)環(huán)節(jié)。漢字的后處理是出于獲得最大化識(shí)別率考慮,它在前期已有識(shí)別水平上,通過(guò)調(diào)整參數(shù)或反饋處理獲得更高的識(shí)別率。</p&g
45、t;<p> 3.2.1 預(yù)處理 </p><p> 由于用數(shù)碼相機(jī)或掃描儀作為輸入設(shè)備得到的數(shù)據(jù)不可避免地存在著各種外在的干擾,圖像質(zhì)量也有偏差,對(duì)識(shí)別效果有一定影響。因此,在對(duì)原始圖像進(jìn)行識(shí)別處理之前,盡可能將干擾因素影響降低,是非常有必要的,也就是要先對(duì)原始采樣信號(hào)進(jìn)行預(yù)處理。預(yù)處理[8]通常包括去除噪聲、版面分析、二值化、傾斜校正、行列切分、平滑、歸一化、細(xì)化等。</p>
46、<p><b> ?。?)版面分析</b></p><p> 印刷體文字識(shí)別常遇到的識(shí)別主體不是一個(gè)文字段,而是整個(gè)版面,所以版面分析是印刷體文字識(shí)別系統(tǒng)中的重要組成部分。它是指對(duì)印刷體文檔圖像進(jìn)行分析,提取出文本、圖像圖形、表格等區(qū)域,并確定其邏輯關(guān)系,并將相應(yīng)的文本塊連接在一起。這一過(guò)程的自動(dòng)完成算法還不是很完善,有些部分常由手工完成,最終的系統(tǒng)能夠自動(dòng)完成所有的版面分析。&
47、lt;/p><p><b> (2)二值化</b></p><p> 將一幅具有多種灰度值的圖像變成白黑分布的二值圖像的工作稱為二值化處理,二值化的主要目的是將漢字從圖像中分離出來(lái)。通常的方法為先確定像素的閾值,比較像素值和閾值的大小,從而確定為1或0,這個(gè)二值化閾值的選取較為關(guān)鍵。若閾值取的過(guò)大,則保留的信息過(guò)多,其中許多雜點(diǎn)無(wú)用信息造成了對(duì)以后處理的干擾;若閾值取
48、得過(guò)小,則丟失的信息過(guò)多,其中許多文字信息產(chǎn)生續(xù)斷或丟失,造成最終文字提取分割的信息丟失。如何確定此閾值的過(guò)程也就成了研究二值化算法的重點(diǎn)?,F(xiàn)如今,漢字圖像二值化方法多種多樣,但大多都有應(yīng)用限制。研究一種適合各種文字圖像的二值化方法也是預(yù)處理環(huán)節(jié)的重點(diǎn)。</p><p><b> ?。?)傾斜校正</b></p><p> 通過(guò)輸入設(shè)備獲得的圖像不可避免地會(huì)發(fā)生傾斜
49、,這會(huì)給后面的行字分割、文字識(shí)別等圖像處理與分析帶來(lái)困難,因此,在漢字識(shí)別系統(tǒng)中,傾斜校正是圖像預(yù)處理的重要部分。傾斜校正的核心在于如何檢測(cè)出圖像的傾斜角。目前,傾斜角檢測(cè)的方法有許多種,主要可分為5類:基于Hough變換的方法;基于交叉相關(guān)性的方法;基于投影的方法;基于Fourier變換的方法和K-最近鄰簇方法。靈活運(yùn)用傾斜角度檢測(cè)算法將是傾斜校正環(huán)節(jié)的重要研究方向。</p><p><b> (4
50、)行字切分</b></p><p> 漢字切分的目的是利用字與字之間、行與行之間的空隙,將單個(gè)漢字從整個(gè)圖像中分離出來(lái)。漢字的切分分為行切分和字切分[9]。</p><p> 行切分是利用行與行之間的直線型空隙來(lái)分辨行,將各行的行上界和行下界記錄下來(lái)。典型的算法是,從上到下,對(duì)二值漢字點(diǎn)陣的每行像素值進(jìn)行累加,若從某行開(kāi)始的若干累加和均大于一個(gè)試驗(yàn)常數(shù),則可認(rèn)為該行是一漢字
51、文本行的開(kāi)始,即行上界。同理,當(dāng)出現(xiàn)連續(xù)大約一個(gè)漢字高度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為行下界。</p><p> 字切分是利用字與字之間的直線型空隙來(lái)分辨字,將各字的左邊界和右邊界記錄下來(lái)。典型的算法是,在確定這一行的行上界和行下界之后,從左到右搜索一行文字的左右邊界,切分出單字或標(biāo)點(diǎn)符號(hào)。從左邊開(kāi)始垂直方向的行距內(nèi)像素單列累加和均大于一個(gè)試驗(yàn)常數(shù),則可認(rèn)為是該漢字的左邊界。同理,當(dāng)出
52、現(xiàn)連續(xù)一個(gè)漢字寬度的大累加和情況后突然出現(xiàn)一系列小累加和甚至零值時(shí),判定為該漢字的右邊界。對(duì)文本漢字行來(lái)說(shuō),由于存在左右分離字,寬窄字,字間交連等,加上行間混有英文、數(shù)字、符號(hào)、和字間污點(diǎn)干擾,使得字切分比行切分困難得多。</p><p><b> ?。?)歸一化</b></p><p> 歸一化也稱規(guī)格化,它是把文字尺寸變換成統(tǒng)一大小,糾正文字位置(平移),文字筆
53、畫粗細(xì)變換等文字圖像的規(guī)格化處理,并只對(duì)文字圖像進(jìn)行投影。漢字圖像的歸一化往往會(huì)帶來(lái)兩個(gè)問(wèn)題:一是字符圖像的縮放可能會(huì)引入一些干擾;二是圖像縮放本身的運(yùn)算量較大。所以,必須采用恰當(dāng)?shù)臍w一化方法來(lái)消除尺度變化對(duì)特征值的影響。</p><p><b> ?。?)平滑</b></p><p> 對(duì)數(shù)字圖像進(jìn)行平滑,目的是去處孤立的噪聲干擾,以平滑筆畫邊緣。平滑在圖像處理中
54、實(shí)質(zhì)是一幅文字圖像通過(guò)一個(gè)低通濾波器,去除高頻分量,保留低頻分量,在實(shí)際應(yīng)用中,采用WXW(一般采用3x3)的輔助矩陣對(duì)二值文字圖像進(jìn)行掃描。根據(jù)輔助矩陣中各像素0、1的分布,使處于矩陣中心的被平滑的像素X0從“0”變成“1”或者從“1”變成“O”。</p><p><b> ?。?)細(xì)化</b></p><p> 細(xì)化處理是在圖像處理中相當(dāng)重要和關(guān)鍵的一環(huán),它是將
55、二值化文字點(diǎn)陣逐層剝?nèi)ポ喞吘壣系狞c(diǎn),變成筆畫寬度只有一個(gè)比特的文字骨架圖形。細(xì)化處理的目的是搜索圖像的骨架,去除圖像上多余的像素,從而在不改變圖像主要特征的前提下,減少圖像的信息量。細(xì)化處理結(jié)果的好壞,直接影響到識(shí)別的效果和質(zhì)量。在細(xì)化處理過(guò)程中,一方面,去除的像素太少,則不能充分有效地減少圖像的信息量;另一方面,去除的像素太多,特別是某些關(guān)鍵像素若被去除,則改變了原始圖像的主要特征。因此,高質(zhì)量的細(xì)化算法程序?qū)D像識(shí)別有很大的實(shí)用價(jià)
56、值。</p><p> 針對(duì)文字圖像的細(xì)化算法已有很多,它的優(yōu)劣對(duì)系統(tǒng)的識(shí)別效果影響很大。對(duì)細(xì)化的一般要求是保持原有筆畫的連續(xù)性,不能由于細(xì)化造成筆畫斷開(kāi);細(xì)化成為單層像素線;保持文字原有特征,既不要增加,也不要丟失,保持筆畫特征,最好細(xì)化掉筆鋒:細(xì)化結(jié)果是原曲線的中心線,保留曲線的端點(diǎn),交叉部分中心線不畸變。針對(duì)各種不同的應(yīng)用,國(guó)內(nèi)外已發(fā)表了許多細(xì)化算法,如Hilditch經(jīng)典細(xì)化算法[10]、Deutsch
57、算法[11]等。然而,細(xì)化過(guò)程本身固有的弱點(diǎn)總是造成筆畫骨架線的畸變,增加對(duì)識(shí)別的干擾,主要的畸變包括:交叉筆畫畸變、轉(zhuǎn)折處出現(xiàn)分叉筆畫、失去短筆畫和筆畫合并等。可以說(shuō),這些問(wèn)題依賴細(xì)化算法本身是無(wú)法克服的,需要在后續(xù)的處理中盡量消除這些畸變的干擾。</p><p> 3.2.2 漢字特征提取</p><p> 預(yù)處理的最終目的是為了更加方便、準(zhǔn)確地進(jìn)行漢字的特征提取,從而提高漢字識(shí)別
58、率。對(duì)于漢字,其特征大致分為兩類,包括結(jié)構(gòu)特征和統(tǒng)計(jì)特征,至今總數(shù)已經(jīng)不下百種。但每種漢字特征的適用環(huán)境都有所不同,有的特征在一些情況下有很強(qiáng)的魯棒性,但在另外一些情況下卻完全失去了效用。例如,漢字特征點(diǎn)特征算法本身是一種比較簡(jiǎn)單、完善的特征提取算法。在漢字圖像滿足清晰、無(wú)筆畫連聯(lián)、無(wú)斷筆等細(xì)化要求時(shí),是能夠完全將漢字的各種特征點(diǎn)位置提取處理的;若漢字圖像本身模糊不清,預(yù)處理工作也無(wú)法達(dá)到要求,這樣再好的漢字特征點(diǎn)特征提取算法也無(wú)法提取
59、正確的漢字特征點(diǎn)特征,已經(jīng)獲得的特征點(diǎn)特征一旦應(yīng)用到漢字識(shí)別系統(tǒng)中去,將會(huì)極大地影響整個(gè)系統(tǒng)的實(shí)用性。針對(duì)不同的系統(tǒng)需求,應(yīng)該選擇不同的漢字特征,進(jìn)行優(yōu)化特征組合,這樣才能達(dá)到系統(tǒng)最佳識(shí)別效果。所以選擇哪種特征,如何組合特征將是漢字特征提取這一部分的重點(diǎn)研究領(lǐng)域。</p><p> 要做到有的放矢,就需要研究已有的獲得良好效果的各種漢字特征,分析它們的優(yōu)點(diǎn)、缺點(diǎn)和適用環(huán)境。如下介紹并分析一下常用的一些的漢字結(jié)構(gòu)
60、特征和漢字統(tǒng)計(jì)特征。</p><p><b> ?。?)結(jié)構(gòu)特征</b></p><p><b> ?、俪槿」P畫法</b></p><p> 抽取筆畫法是利用漢字由筆畫所構(gòu)成的特點(diǎn)進(jìn)行識(shí)別,它利用漢字的結(jié)構(gòu)信息來(lái)進(jìn)行漢字的聯(lián)機(jī)識(shí)別,在印刷體和脫機(jī)手寫識(shí)別中,由于筆畫提取的困難,結(jié)果不是很理想。</p>&l
61、t;p><b> ?、谒沙谄ヅ浞?lt;/b></p><p> 松弛匹配法是一種基于全局特征的匹配方法,它對(duì)輸入漢字作多邊近似,抽取邊界線段,將這些邊界線段組成臨近線段表,然后用松弛匹配操作,完成邊與邊的匹配。這種方法利用彈性吸收漢字的變形,一個(gè)字只用一個(gè)樣本。其缺點(diǎn)是操作速度較慢,計(jì)算量大。</p><p><b> ③非線性匹配法</b>
62、;</p><p> 非線性匹配法是由Tsukumo等提出的,用以解決字形的位移、筆畫的變形等現(xiàn)象。此方法試圖克服從圖形中正確抽取筆畫的困難,以提高正確判別的能力。</p><p><b> ?。?)統(tǒng)計(jì)特征</b></p><p> ?、俟P畫復(fù)雜性(Complexity Index) </p><p> 筆畫復(fù)雜性
63、指數(shù)是指文字筆畫的線段密度,其定義如下:</p><p><b> (3-1)</b></p><p><b> (3-2)</b></p><p> 式(3-1)和(3-2)中</p><p> 、一橫向和縱向的筆畫復(fù)雜性指數(shù);</p><p> 、一橫向和縱向的
64、文字線段總長(zhǎng)度;</p><p> 、一橫向和縱向質(zhì)心二次矩的平方根;</p><p> 、分別反應(yīng)了橫向和縱向的筆畫復(fù)雜性,橫多的大,豎多的大。筆畫復(fù)雜性指數(shù)與漢字的位移無(wú)關(guān),受字體和字號(hào)的影響較小,但易受筆畫斷裂和粘連的影響,且其分類能力較差,常與另一種粗分類方法“四邊碼”連用。</p><p> ?、谒倪叴a(Four-side Code)</p>
65、;<p> 四邊碼是在漢字點(diǎn)陣圖的四周各取一條帶,計(jì)算其中的文字圖像素點(diǎn)數(shù),并將它分成四級(jí),構(gòu)成一個(gè)四元組。由于漢字邊框不但含有豐富的結(jié)構(gòu)信息,而且邊框部分筆畫一般較少,不易粘連,抗干擾能力強(qiáng),但對(duì)漢字的位移和旋轉(zhuǎn)比較敏感,與筆畫復(fù)雜性指數(shù)正好形成互補(bǔ)。</p><p><b> ③特征點(diǎn)</b></p><p> 特征點(diǎn)提取算法的主要思想是利用字
66、符點(diǎn)陣中一些有代表性的黑點(diǎn)(筆畫)、白點(diǎn)(背景)作為特征來(lái)區(qū)分不同的字符。特征點(diǎn)包括筆畫骨架線的端點(diǎn)、折點(diǎn)、歧點(diǎn)和交點(diǎn),漢字的背景也含有一定的區(qū)別于其它漢字的信息,選擇若干背景點(diǎn)作為特征點(diǎn),有利于提高系統(tǒng)的抗干擾能力。其特點(diǎn)是能夠大大壓縮特征庫(kù)的容量,對(duì)于內(nèi)部筆畫粘連字符,其識(shí)別的適應(yīng)性較強(qiáng)、直觀性好,但不易表示為矢量形式,匹配難度大,不適合作為粗分類的特征。</p><p><b> ④筆段特征&l
67、t;/b></p><p> 漢字是由筆畫組成的,而筆畫又由筆段組成,筆段可近似為一定方向、長(zhǎng)度和寬度的矩形段。利用筆段與筆段之間的關(guān)系組成特征對(duì)漢字進(jìn)行識(shí)別,受字體和字號(hào)的影響小,對(duì)于多體漢字的識(shí)別獲得了良好效果。其缺點(diǎn)是筆段的提取會(huì)較為困難,匹配的難度大,抗內(nèi)部筆畫斷裂或者粘連能力差。</p><p> 當(dāng)然,漢字的特征多種多樣,各有各的優(yōu)點(diǎn)、短處和不同的適用范圍。選擇什么樣
68、的特征使得此單分類環(huán)節(jié)的識(shí)別效果達(dá)到最佳,選擇哪些特征來(lái)優(yōu)化組合來(lái)達(dá)到整個(gè)系統(tǒng)的識(shí)別效果達(dá)到最佳,這就是本文需要研究的問(wèn)題。</p><p> 3.2.3 漢字的分類識(shí)別 </p><p> 識(shí)別算法是整個(gè)識(shí)別過(guò)程的核心部分。原始圖像經(jīng)過(guò)預(yù)處理后,得到一個(gè)較為理想的二值圖像,然后就可以對(duì)這個(gè)處理后的二值圖像進(jìn)行識(shí)別。識(shí)別的過(guò)程包括根據(jù)識(shí)別算法選擇和提取漢字的特征、與標(biāo)準(zhǔn)文字的特征進(jìn)行匹
69、配判別。</p><p> 漢字的分類識(shí)別方法也是漢字識(shí)別系統(tǒng)的重要環(huán)節(jié)之一。諸多分類方法各自有其優(yōu)缺點(diǎn)。</p><p><b> ?。?)相關(guān)匹配</b></p><p> 這是一種統(tǒng)計(jì)識(shí)別方法,它通過(guò)在特征空間中計(jì)算輸入特征向量與各模板向量之間的距離進(jìn)行分類判決。距離度量的定義:</p><p> 設(shè)X,S分
70、別為輸入特征向量和模板特征向量,n為特征維數(shù)。</p><p> S階Minkowski度量</p><p><b> (3-3)</b></p><p><b> ?。?-4)</b></p><p> 其中最為常用的是一階度量,又稱為絕對(duì)距離。即:</p><p>
71、<b> ?。?-5)</b></p><p><b> ?、跉W氏距離</b></p><p> S階Minkowski度量中,令s=2,得到歐氏距離。</p><p><b> ?。?-6)</b></p><p><b> ?、奂訖?quán)距離</b><
72、;/p><p> 考慮到輸入分量對(duì)模板的作用大小不同,故采用加權(quán)值來(lái)表示</p><p><b> ?。?-7)</b></p><p> 下標(biāo)j表示不同的模板可以有不同的加權(quán)值。</p><p> 另一個(gè)描述輸入向量與模板間關(guān)系的度量是相似度,最簡(jiǎn)單的相似度定義為二者方向夾角的余弦S,即:</p>&l
73、t;p><b> ?。?-8)</b></p><p> 與距離一樣,相似度也可以加權(quán),得到加權(quán)相似度:</p><p><b> ?。?-9)</b></p><p> 其中,Wi為權(quán)值,且,</p><p> 當(dāng)一個(gè)類別有多個(gè)模板時(shí),還可以使用多重相似度:</p>&l
74、t;p><b> ?。?-10)</b></p><p> 其中,Si是S類中的一個(gè)模板。P(i)是該模板的概率。</p><p> 相關(guān)匹配是一種統(tǒng)計(jì)識(shí)別方法。統(tǒng)計(jì)方法的優(yōu)點(diǎn)是特征提取和模板的建立都比較容易,抗干擾能力強(qiáng),使局部噪聲不敏感:缺點(diǎn)是分辨相似字的能力較弱,對(duì)書寫風(fēng)格的變化比較敏感。</p><p><b>
75、(2)文法分析</b></p><p> 文法分析的基本思想是將輸入的漢字看作是一個(gè)語(yǔ)句或符號(hào)串,將識(shí)別問(wèn)題轉(zhuǎn)化為判斷輸入的語(yǔ)句是否屬于某種語(yǔ)言,即句子是否符合某種語(yǔ)言的語(yǔ)法約束條件,這種方法在漢字識(shí)別中也得到了應(yīng)用。</p><p> 文法分析是典型的結(jié)構(gòu)識(shí)別方法,由于其側(cè)重點(diǎn)是在筆段形狀、位置以及筆段之間相互關(guān)系的分析上,所以它的優(yōu)點(diǎn)是分辨相似字的能力較強(qiáng),對(duì)書寫風(fēng)格的
76、變化不敏感:缺點(diǎn)是對(duì)局部噪聲敏感,特征提取比較復(fù)雜。</p><p><b> (3)松弛匹配</b></p><p> 無(wú)論是相關(guān)匹配還是文法分析,都要求輸入特征向量和模板特征向量的各分量之間具有確切的對(duì)應(yīng)關(guān)系,然而在結(jié)構(gòu)分析中,往往事先難以確定兩者各分量間的對(duì)應(yīng)關(guān)系,此時(shí)可以采用松弛匹配法。</p><p> 松弛匹配法首先通過(guò)迭代運(yùn)
77、算,找出輸入向量與模板向量各分量間的對(duì)應(yīng)關(guān)系,然后再根據(jù)這一對(duì)應(yīng)關(guān)系進(jìn)行匹配。迭代開(kāi)始之前,首先根據(jù)輸入向量各分量與模板向量各分量之間的相似度構(gòu)成一個(gè)初始權(quán)值矩陣。矩陣中各元素的值為相應(yīng)分量之間的初始匹配概率,然后通過(guò)迭代運(yùn)算對(duì)各個(gè)權(quán)值進(jìn)行修正,并將其中趨近于零的值置為零,直至權(quán)值的變化趨于穩(wěn)定,此時(shí),可以認(rèn)為權(quán)值矩陣中非零元素所對(duì)應(yīng)的分量之間只有對(duì)應(yīng)關(guān)系,然后根據(jù)這一對(duì)應(yīng)關(guān)系計(jì)算輸入量與該模板問(wèn)的距離,重復(fù)上述過(guò)程。求出輸入量與每個(gè)模
78、板間的距離,取其中距離最小的模板所代表的類別為識(shí)別結(jié)果。</p><p> 松弛匹配法兼具統(tǒng)計(jì)方法和結(jié)構(gòu)方法的特長(zhǎng)。由于它是根據(jù)總體的匹配程度來(lái)決定識(shí)別結(jié)果的,所以這一點(diǎn)它類似于統(tǒng)計(jì)方法,同時(shí)它在迭代中還把基元間位置關(guān)系等結(jié)構(gòu)信息考慮在內(nèi),這一點(diǎn)又很像結(jié)構(gòu)方法。因此松弛匹配法在漢字識(shí)別中取得了很好的效果,它不僅可以用于特征點(diǎn)的匹配,而且還可以用于筆段、筆畫和部件的匹配。其主要缺點(diǎn)是運(yùn)算量較大,識(shí)別中往往需要增加
79、預(yù)分類環(huán)節(jié)以減小運(yùn)算量。另外,它吸收畸變的能力仍有不足。</p><p><b> (4)人工神經(jīng)網(wǎng)絡(luò)</b></p><p> 漢字識(shí)別是一個(gè)非?;钴S的分支,不斷有新的方法涌現(xiàn)出來(lái),為漢字識(shí)別的研究注入新的活力,其中基于人工神經(jīng)網(wǎng)絡(luò)的識(shí)別方法是非常引人注目的方向。目前神經(jīng)網(wǎng)絡(luò)理論的應(yīng)用己經(jīng)滲透到各個(gè)領(lǐng)域,并在模式識(shí)別、智能控制、計(jì)算機(jī)視覺(jué)、自適應(yīng)濾波和信號(hào)處理、
80、非線性優(yōu)化、自動(dòng)目標(biāo)識(shí)別,連續(xù)語(yǔ)音識(shí)別、聲納信號(hào)的處理、知識(shí)處理、傳感技術(shù)與機(jī)器人、生物等領(lǐng)域都有廣泛地應(yīng)用。</p><p><b> 3.2.4 后處理</b></p><p> 后處理就是利用相關(guān)算法對(duì)識(shí)別后的漢字文本或者初級(jí)識(shí)別結(jié)果做進(jìn)一步的處理,糾正誤識(shí)的漢字,給出拒識(shí)的漢字,確定模棱兩可的漢字。漢字識(shí)別的后處理方法[12,13]從用戶的參與程度來(lái)說(shuō),可
81、分為三類:手工處理,交互式處理和計(jì)算機(jī)自動(dòng)處理。以下對(duì)各種常用的后處理方法做簡(jiǎn)單的介紹。</p><p><b> (1)簡(jiǎn)單的詞匹配</b></p><p> 簡(jiǎn)單的詞匹配就是利用文本中字的上下文匹配關(guān)系和詞的使用頻度,給識(shí)別后文本中的拒識(shí)字提供一個(gè)“最佳”的候選字,其關(guān)鍵是建立漢語(yǔ)詞條數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)應(yīng)具印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究有完善的詞條存
82、儲(chǔ)、維修功能,應(yīng)該能夠反映不同詞的使用頻度,應(yīng)盡可能的提高詞條的檢索速度,只有這樣才能方便漢字后處理程序的使用。</p><p><b> ?。?)綜合詞匹配</b></p><p> 綜合詞匹配方法,就是綜合利用初級(jí)識(shí)別結(jié)果和字的上下文關(guān)系及詞的使用頻度,來(lái)決定最后的識(shí)別結(jié)果。這種方法實(shí)際上己把識(shí)別過(guò)程和后處理過(guò)程融為一體了。</p><p&g
83、t; 綜合利用初級(jí)識(shí)別結(jié)果與詞條信息的糾錯(cuò)優(yōu)于單純利用詞條的糾錯(cuò)。綜合詞匹配法可以減少搜索詞條關(guān)系時(shí)的搜索空間,從而提高糾錯(cuò)速度。這是因?yàn)樵趯ふ易值纳舷挛钠ヅ潢P(guān)系時(shí),利用初級(jí)識(shí)別結(jié)果的待選集,可以大大縮小搜索范圍,避免了在整個(gè)詞條庫(kù)中查詢。在不利用待選集時(shí),對(duì)于有可能識(shí)別出錯(cuò)的地方,只能采用拒識(shí),而拒識(shí)不提供任何未知漢字與已知漢字字符集中漢字相似度的信息,所以尋找詞條時(shí)的搜索空間只能是整個(gè)詞條庫(kù)。另外,當(dāng)某一個(gè)詞前后兩個(gè)字都被拒識(shí)時(shí),
84、簡(jiǎn)單的詞匹配法就無(wú)能為力,而綜合詞匹配法仍能利用詞條信息進(jìn)行糾錯(cuò)。</p><p><b> ?。?)詞法分析</b></p><p> 語(yǔ)言是語(yǔ)音和意義的結(jié)合體。語(yǔ)素是最小的語(yǔ)言單位。無(wú)論是詞還是短語(yǔ),都有其構(gòu)成規(guī)則,利用這些規(guī)則,將它們分類。另外,不同的應(yīng)用背景,也有不同的分類結(jié)果。</p><p> 漢字識(shí)別后處理的詞法分析方法,就是
85、在詞匹配的基礎(chǔ)上,對(duì)仍難以確定的漢字,找出這些漢字與前后漢字所能組成的詞,然后通過(guò)詞法分析,確定一個(gè)能和該詞的前后詞組成“最佳”匹配的詞,從而確定要識(shí)別的漢字?;谠~法分析的漢字識(shí)別后處理的關(guān)鍵是構(gòu)造一個(gè)完善的詞條數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)中的每一個(gè)詞條項(xiàng)都要包括本詞條的詞性、詞頻、連接屬性、語(yǔ)義信息等。</p><p> (4)句法、語(yǔ)義分析</p><p> 語(yǔ)句無(wú)論是從結(jié)構(gòu)上,還是從意思上
86、都有一種人類共同理解、共同接受和共同遵守的語(yǔ)言組合法則。所以利用語(yǔ)義句法的方法,在初級(jí)識(shí)別結(jié)果的基礎(chǔ)上,在利用詞法分析進(jìn)行匹配之后或匹配的同時(shí),再進(jìn)行句法分析和語(yǔ)義分析,從而確定要識(shí)別的漢字。</p><p> 進(jìn)行語(yǔ)義句法分析也要首先建立詞條庫(kù)。這時(shí)詞條庫(kù)中的每一個(gè)詞條項(xiàng),還要包括該詞的句法信息和語(yǔ)義信息。另外,還要建立起一套句法規(guī)則和語(yǔ)義規(guī)則,以便指導(dǎo)語(yǔ)法分析和語(yǔ)義分析。</p><p&
87、gt; (5)人工神經(jīng)元網(wǎng)絡(luò)</p><p> 利用人工神經(jīng)元網(wǎng)絡(luò)的漢字識(shí)別后處理可以采取兩種方式。一種是把識(shí)別過(guò)程和后處理過(guò)程分開(kāi),網(wǎng)絡(luò)的輸入是初級(jí)識(shí)別結(jié)果的短語(yǔ)或者句子,其中包含不確定的漢字(或拒識(shí)的漢字),通過(guò)網(wǎng)絡(luò)的運(yùn)行,最終確定這些字。另一種方法是把識(shí)別過(guò)程和后處理過(guò)程綜合在一起,初級(jí)識(shí)別給出的結(jié)果是每一個(gè)待識(shí)漢字的前幾個(gè)候選字和每一候選字與待識(shí)字之間的相似度。然后,把這些候選字以及與之相連的相似度輸
88、入網(wǎng)絡(luò),通過(guò)網(wǎng)絡(luò)的并行作用,找到最符合漢語(yǔ)語(yǔ)法和語(yǔ)義組合關(guān)系的詞或句子,從而確定出要識(shí)別的漢字。</p><p> 3.3 印刷體漢字識(shí)別技術(shù)分析</p><p> 3.3.1 結(jié)構(gòu)模式識(shí)別方法 </p><p> 漢字的數(shù)量巨大,結(jié)構(gòu)復(fù)雜,但其特殊的組成結(jié)構(gòu)中蘊(yùn)藏著相當(dāng)嚴(yán)的規(guī)律[14]。從筆畫上講,漢字有包括橫、豎、撇、捺、點(diǎn)、折、勾等七種基本筆畫,還有提挑
89、、撇點(diǎn)、橫捺等七種變形筆畫。從部件上講,部件是有特殊的筆畫組合而成,故部件也是一定的。換而言之,漢字圖形具有豐富的有規(guī)律可循的結(jié)構(gòu)信息,可以設(shè)法提取含有這些信息的結(jié)構(gòu)特征和組字規(guī)律,將它們作為漢字識(shí)別的依據(jù)。這就是結(jié)構(gòu)模式識(shí)別。</p><p> 結(jié)構(gòu)模式識(shí)別理論在20 世紀(jì)70 年代初形成,是早期漢字識(shí)別研究的主要方法。其思想是直接從字符的輪廓或骨架上提取的字符像素分布特征,如筆畫、圈、端點(diǎn)、節(jié)點(diǎn)、弧、突起、
90、凹陷等多個(gè)基元組合,再用結(jié)構(gòu)方法描述基元組合所代表的結(jié)構(gòu)和關(guān)系。通常抽取筆段或基本筆畫作為基元,由這些基元組合及其相互關(guān)系完全可以精確地對(duì)漢字加以描述,最后利用形式語(yǔ)言及自動(dòng)機(jī)理論進(jìn)行文法推斷,即識(shí)別。結(jié)構(gòu)模式識(shí)別方法的主要優(yōu)點(diǎn)在于對(duì)字體變化的適應(yīng)性強(qiáng),區(qū)分相似字能力強(qiáng);缺點(diǎn)是抗干擾能力差,從漢字圖像中精確的抽取基元、輪廓、特征點(diǎn)比較困難,匹配過(guò)程復(fù)雜。因此,有人采用漢字輪廓結(jié)構(gòu)信息作為特征,但這一方案需要進(jìn)行松弛迭代匹配,耗時(shí)太長(zhǎng),而
91、且對(duì)于筆畫較模糊的漢字圖像,抽取輪廓會(huì)遇到極大困難。也有些學(xué)者采用抽取漢字圖像中關(guān)鍵特征點(diǎn)來(lái)描述漢字,但是特征點(diǎn)的抽取易受噪聲點(diǎn)、筆畫的粘連與斷裂等影響??傊畣渭儾捎媒Y(jié)構(gòu)模式識(shí)別方法的脫機(jī)手寫漢字識(shí)別系統(tǒng),識(shí)別率較低。</p><p> 3.3.2 統(tǒng)計(jì)模式識(shí)別方法 </p><p> 統(tǒng)計(jì)模式識(shí)別方法是用概率統(tǒng)計(jì)模型提取待識(shí)別漢字的特征向量,然后根據(jù)決策函數(shù)進(jìn)行分類,識(shí)別就是判別待識(shí)
92、漢字的特征向量屬于哪一類。常用的判別準(zhǔn)則是距離準(zhǔn)則和類似度準(zhǔn)則,典型的統(tǒng)計(jì)模式識(shí)別方法有最小距離分類、最鄰近分類等。</p><p><b> 最小距離分類</b></p><p> 最小距離分類器(Minimum - Distance Classifier) 是以漢字與特征空間模型點(diǎn)之間的距離作為分類準(zhǔn)則,它有著圖3-2所描述的結(jié)構(gòu)。其中,x 是輸入特征向量,他
93、將被分配到C個(gè)類別中的某一個(gè)類ωk( k = 1 ,2 , ?,C) ,這些類有各自的典型模式mk 表示。</p><p> 圖3-2 最小距離分類器系統(tǒng)圖</p><p><b> b. 最鄰近分類</b></p><p> 最鄰近法的思想是對(duì)于C 個(gè)類別ωi ( i = 1 ,2 ?,C) ,每類有標(biāo)明類別的樣本Ni 個(gè)(i = 1
94、 , 2 , ?,C)。規(guī)定ωi 的判別函數(shù)如式(3-1) 所示。其中的角標(biāo)i 表示ωi類,k 表示ωi 類Ni 個(gè)樣本中的第k 個(gè)。</p><p> , k=1, 2… (3-11)</p><p> , i = 1 , 2 …,C (3-12)</p><p> 若式(3-2) 成立,則決策x ∈ωj 。即對(duì)未知樣本x,比較x 與N
95、 個(gè)已知類別的樣本之間的歐式距離并決策x 與離它最近的樣本同類。其中, </p><p> 統(tǒng)計(jì)模式識(shí)別方法具有良好的魯棒性(Robustness),適合有噪聲的文字,它一般采用多維特征值累加的辦法,減少噪聲的影響,但是,累加也會(huì)使相似漢字的結(jié)構(gòu)的差異消失,因此區(qū)分相似字的能力較差。</p><p> 常用的漢字統(tǒng)計(jì)模式識(shí)別方法包括[15]:</p><p>
96、<b> ?。?)模板匹配</b></p><p> 模板匹配是將漢字的圖像直接作為特征,將之與特征庫(kù)中的漢字圖像逐一比較,相似度最高的漢字即為待選漢字。這種需要將左右漢字圖像的像素點(diǎn)陣均存儲(chǔ)起來(lái),既占用大量的內(nèi)存空間,特別是對(duì)嵌入式系統(tǒng)來(lái)說(shuō)是不可容忍的,也將在尋找最相似漢字過(guò)程中耗費(fèi)大量的時(shí)間,這對(duì)實(shí)時(shí)系統(tǒng)也是致命的。另外,其對(duì)于傾斜、筆畫變粗變細(xì)均無(wú)良好的適應(yīng)能力。</p>
97、<p> ?。?)利用變換特征的方法</p><p> 該方法利用各種函數(shù)變換,例如K-L變換、Fourier變換和Gabor變換等對(duì)漢字圖像特征進(jìn)行變換。但這些變換如果沒(méi)有合適的處理,都多少存在缺陷。有的抗噪性能差,有的代碼復(fù)雜度高。</p><p><b> ?。?)筆畫方向特征</b></p><p> 筆畫方向的統(tǒng)計(jì)特
98、征總共有3種:全局筆畫方向密度G-DCD,局部筆畫方向密度L-DCD和周邊筆畫方向PDC。前兩者用于預(yù)分類,后者用于單字識(shí)別。這些特征都是以筆畫方向貢獻(xiàn)(Direction Contribution)為基礎(chǔ)。</p><p><b> ?。?)外圍特征</b></p><p> 漢字的外圍特征是由漢字輪廓信息獲得的。漢字輪廓具有豐富的特征,即使在稍微傾斜或者筆畫粘連
99、的情況,也能提取較為完全的輪廓信息。</p><p><b> ?。?)特征點(diǎn)特征</b></p><p> 漢字信息的絕大部分集中在漢字骨架上,而漢字骨架信息又大多集中在若干特征點(diǎn)上。一旦確定這些筆畫特征點(diǎn),漢字筆畫以及結(jié)構(gòu)形狀就可以確定。它們包括端點(diǎn)、折點(diǎn)、歧點(diǎn)和交點(diǎn)等。漢字特征點(diǎn)的提取一般是基于漢字細(xì)化后的單像素圖像,而往往細(xì)化算法不能達(dá)到算法的要求,經(jīng)常有斷
100、筆、非單層像素等情況,一點(diǎn)點(diǎn)變形或噪聲都會(huì)影響漢字特征點(diǎn)的提取。也就是它的魯棒性一般不好。</p><p> 隨著漢字識(shí)別技術(shù)的發(fā)展,已經(jīng)有越來(lái)越多的統(tǒng)計(jì)特征出現(xiàn)。但幾乎每種特征都不是完美的,都要在特殊條件下施加一些特殊的處理。</p><p> 如表1-1所示為統(tǒng)計(jì)方法和結(jié)構(gòu)方法特征比較:</p><p> 表1-1 統(tǒng)計(jì)方法和結(jié)構(gòu)方法特征比較</p&
101、gt;<p> 3.4 印刷體漢字識(shí)別的分類</p><p> 在進(jìn)行漢字識(shí)別時(shí),考慮到漢字?jǐn)?shù)目的龐大。識(shí)別總信息量比英文數(shù)字大得多,會(huì)大大增加識(shí)別時(shí)間。所以,漢字識(shí)別一般都采用一級(jí)或多級(jí)粗分類(Gross classification)再細(xì)分判別(Fine classification),從而人人提高識(shí)別速度。采用多級(jí)粗分類是印刷體漢字識(shí)別常用的方法。</p><p>
102、 一般認(rèn)為,多級(jí)分類漢字識(shí)別中,把各級(jí)粗分、細(xì)分、判別、包括預(yù)處理合在一起成為識(shí)別,把多級(jí)分類中的前n級(jí)稱為粗分類,把最后一級(jí)粗分類后類中文字的區(qū)分稱為細(xì)分類。</p><p> 對(duì)于粗分類,要求如下:</p><p> 1.粗分類的正確分類率和分類穩(wěn)定性要高。</p><p> 2.粗分類的速度要快。</p><p> 3.粗分類
103、的分類特性要平坦。</p><p> 4.粗分類特征要簡(jiǎn)單,使分類字典容量小。</p><p> 5.粗分類方法要和細(xì)分判別方法相協(xié)調(diào)。</p><p> 第四章 系統(tǒng)的實(shí)現(xiàn)與仿真</p><p><b> 4.1系統(tǒng)的實(shí)現(xiàn)</b></p><p> 印刷品上的漢字輸入,經(jīng)過(guò)預(yù)處理后,
104、對(duì)照標(biāo)準(zhǔn)漢字修補(bǔ)缺損部分,用修補(bǔ)后的漢字進(jìn)行學(xué)習(xí),形成初始的特征庫(kù)后再進(jìn)行大量樣本的學(xué)習(xí),建立實(shí)用的特征庫(kù)。系統(tǒng)在識(shí)別過(guò)程中可進(jìn)行自學(xué)習(xí)。取標(biāo)準(zhǔn)漢字,對(duì)每一個(gè)漢字計(jì)算面積。所有按面積由小到大排列,建立每一漢字與其國(guó)標(biāo)碼的指針。對(duì)神經(jīng)網(wǎng)絡(luò)設(shè)置其初始權(quán)值,選取大量標(biāo)準(zhǔn)漢字訓(xùn)練網(wǎng)絡(luò),反復(fù)修改權(quán)值,直至與面積序號(hào)對(duì)應(yīng)的輸出為有效,并建立每一輸出與面積特征庫(kù)之間的連接關(guān)系。以后隨著學(xué)習(xí)過(guò)程的進(jìn)行,將建立動(dòng)態(tài)調(diào)整面積特征庫(kù)及其與神經(jīng)網(wǎng)絡(luò)之間的對(duì)應(yīng)關(guān)
105、系。系統(tǒng)共包括5個(gè)子功能模塊(見(jiàn)圖4-1)。</p><p> 圖4-1 系統(tǒng)模塊圖</p><p> 圖4-2 系統(tǒng)流程框圖</p><p> 系統(tǒng)的工作流程如圖4-2所示,文件首先由文件管理器加載。送人圖像處理模塊,經(jīng)二值化轉(zhuǎn)灰度,均值濾波,二值化,行字切分等圖像預(yù)處理操作后。得到待識(shí)文字的點(diǎn)陣,漢字識(shí)別模塊從點(diǎn)陣中提取識(shí)別特征,通過(guò)十三點(diǎn)特征提取,
106、精確匹配得出識(shí)別結(jié)果。</p><p><b> 4.2系統(tǒng)的仿真 </b></p><p> 此次采用MATLAB進(jìn)行系統(tǒng)仿真(Matlab仿真程序見(jiàn)附錄1),其中學(xué)習(xí)功能使用sim函數(shù)實(shí)現(xiàn),特征提取用十三點(diǎn)特征提取法。</p><p> y = sim( net, P_test);%用訓(xùn)練出來(lái)的神經(jīng)網(wǎng)絡(luò)計(jì)算數(shù)據(jù)的第P_test行;其中
107、net是SIMULINK的模型名(神經(jīng)網(wǎng)絡(luò)的對(duì)象見(jiàn)附錄2);P_test是外部輸入向量。</p><p><b> 十三點(diǎn)特征提取法:</b></p><p> 首先把字符平均分成8份,統(tǒng)計(jì)每一份內(nèi)黑色像素點(diǎn)的個(gè)數(shù)作為8個(gè)特征,然后統(tǒng)計(jì)水平方向中間兩列和豎直方向中間兩列的黑色像素點(diǎn)的個(gè)數(shù)作為4個(gè)特征,最后統(tǒng)計(jì)所有黑色像素點(diǎn)的個(gè)數(shù)作為第13個(gè)特征。也就是說(shuō),畫4道線
108、,統(tǒng)計(jì)穿過(guò)的黑色像素的數(shù)目。可以得到4個(gè)特征。最后,將字符圖像的全部黑色像素的數(shù)目的總和作為一個(gè)特征。十三點(diǎn)特征提取法有著極好的適應(yīng)性,但是由于特征點(diǎn)的數(shù)目太少所以在樣本訓(xùn)練的時(shí)候比較難收斂。</p><p> 系統(tǒng)首先對(duì)標(biāo)準(zhǔn)圖像(見(jiàn)圖4-3)進(jìn)行識(shí)別,識(shí)別過(guò)程中轉(zhuǎn)灰度(見(jiàn)圖4-4),均值濾(見(jiàn)圖4-5),二值化(見(jiàn)圖4-6),波識(shí)別結(jié)果見(jiàn)圖(4-7)。</p><p> 圖4-3
109、 標(biāo)準(zhǔn)圖像</p><p> 圖4-4 標(biāo)準(zhǔn)圖像轉(zhuǎn)灰度圖像</p><p> 圖4-5 標(biāo)準(zhǔn)圖像均值濾波圖像</p><p> 圖4-6 標(biāo)準(zhǔn)圖像二值化圖像</p><p> 圖4-7 標(biāo)準(zhǔn)圖像識(shí)別結(jié)果</p><p> 通過(guò)對(duì)標(biāo)準(zhǔn)圖像識(shí)別學(xué)習(xí)訓(xùn)練,然后對(duì)輸入亂序圖像(見(jiàn)圖4-8)進(jìn)行識(shí)別,過(guò)程中
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 印刷體漢字識(shí)別技術(shù)的研究畢業(yè)設(shè)計(jì)
- 印刷體漢字快速識(shí)別技術(shù)的研究.pdf
- 印刷體漢字識(shí)別預(yù)處理的研究.pdf
- 印刷體數(shù)學(xué)公式符號(hào)識(shí)別方法研究.pdf
- 印刷體漢字識(shí)別系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 包裝箱表面印刷體漢字識(shí)別算法研究.pdf
- 基于印刷體漢字識(shí)別的快遞郵包分揀系統(tǒng)
- 印刷體中文文檔中表格和漢字的識(shí)別研究.pdf
- 基于印刷體漢字識(shí)別的快遞郵包分揀系統(tǒng).pdf
- 基于小波變換的印刷體漢字字體識(shí)別研究.pdf
- 印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究.pdf
- 手寫體漢字識(shí)別方法研究.pdf
- 印刷體數(shù)字識(shí)別算法研究.pdf
- 印刷體文字識(shí)別的研究.pdf
- 印刷體數(shù)學(xué)表達(dá)式識(shí)別實(shí)現(xiàn)方法研究.pdf
- 印刷體維吾爾文單詞識(shí)別.pdf
- 印刷體數(shù)學(xué)公式識(shí)別的研究.pdf
- 一種印刷體漢字特征點(diǎn)提取的新方法.pdf
- 印刷體光學(xué)字符識(shí)別的研究.pdf
- 脫機(jī)手寫體漢字識(shí)別方法的研究.pdf
評(píng)論
0/150
提交評(píng)論