版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、脫機(jī)漢字識(shí)別是用計(jì)算機(jī)自動(dòng)辨識(shí)印刷在紙上或人寫(xiě)在紙上的漢字,它涉及到模式識(shí)別、圖像處理、人工智能、形式語(yǔ)言與自動(dòng)機(jī)、中文信息、組合數(shù)學(xué)、模糊數(shù)學(xué)、信息論、處理等學(xué)科,也涉及到心理學(xué)、語(yǔ)言文字學(xué)、仿生學(xué)等學(xué)科,手寫(xiě)體漢字識(shí)別是漢字識(shí)別的一個(gè)重要分支,是模式識(shí)別和人工智能的一個(gè)不可缺少的范疇。
目前,聯(lián)機(jī)手寫(xiě)體漢字識(shí)別技術(shù)已經(jīng)取得了飛速的進(jìn)步并得到了比較好的識(shí)別效果,在實(shí)時(shí)性和正確率這兩方面的識(shí)別基本能夠滿足用戶的需求。比如在自動(dòng)
2、閱讀郵件地址、處理銀行支票和賬單等這些特定的應(yīng)用領(lǐng)域中,識(shí)別技術(shù)也已經(jīng)取得了驕人的效果。
但是,聯(lián)機(jī)手寫(xiě)體識(shí)別技術(shù)它的應(yīng)用范圍相對(duì)狹窄,對(duì)漢字的書(shū)寫(xiě)也有較大的限制。所以遠(yuǎn)遠(yuǎn)不能滿足用戶的基本需求,因?yàn)樵谖覀兊娜粘9ぷ骱蜕钪?,大量的手抄?bào)表、手寫(xiě)文檔等都需要輸入計(jì)算機(jī),那如何將它們高效的錄入計(jì)算機(jī),使它們成為可編輯的數(shù)字化信息,另外,龐大的歷史文檔需要處理,如果把它們以聯(lián)機(jī)方式一個(gè)字一個(gè)字的輸入計(jì)算機(jī)將是一項(xiàng)既耗人力物力又費(fèi)財(cái)
3、力的浩大工程。
另外,手寫(xiě)體漢字字型結(jié)構(gòu)復(fù)雜、相似字較多、字符集大、以及字形變化較大,加之不同的人有不同的書(shū)寫(xiě)風(fēng)格等。所以脫機(jī)手寫(xiě)體漢字識(shí)別雖然經(jīng)過(guò)了幾十年的研究,目前還沒(méi)有成熟的產(chǎn)品,技術(shù)有待開(kāi)發(fā),是國(guó)內(nèi)外研究焦點(diǎn),也漢字識(shí)別領(lǐng)域的一個(gè)富有挑戰(zhàn)性的難題。但印刷體漢字識(shí)別技術(shù)已經(jīng)功走出實(shí)驗(yàn)室,得到廣泛應(yīng)用,聯(lián)機(jī)手寫(xiě)體漢字識(shí)別已趨于成熟,走向商業(yè)化。
基于以上本文對(duì)脫機(jī)手寫(xiě)體漢字識(shí)別進(jìn)行了研究,提出了一種基于筆畫(huà)的脫機(jī)
4、手寫(xiě)體漢字識(shí)別方法。因?yàn)榇蠖鄶?shù)中國(guó)漢字的構(gòu)成離不開(kāi)橫豎撇捺這四種筆畫(huà),這四種筆畫(huà)在手寫(xiě)體漢字中所占比例如下:39.51%、33.94%、16.77%和9.78%。盡管不同的人寫(xiě)出來(lái)的漢字大小形狀各異,但橫豎撇捺這四種筆畫(huà)在手寫(xiě)體漢字中的相對(duì)位置、距離、夾角這些特征肯定是相對(duì)穩(wěn)定的,還有以前人們對(duì)手寫(xiě)體漢字識(shí)別大多采用了簡(jiǎn)單的統(tǒng)計(jì)特征提取和分類(lèi)算法,這不能從根本上解決手寫(xiě)體漢字識(shí)別的困難。
本文采用的脫機(jī)手寫(xiě)體漢字識(shí)別方法分為三
5、個(gè)步驟,分別是預(yù)處理,特征提取,對(duì)提取的特征進(jìn)行特征匹配識(shí)別。首先對(duì)手寫(xiě)體漢字樣本進(jìn)行預(yù)處理,本文通過(guò)對(duì)圖像灰度化二值化、平滑去噪、圖像切分、大小歸一化、細(xì)化六個(gè)步驟對(duì)手寫(xiě)體漢字樣本圖像進(jìn)行預(yù)處理。通過(guò)對(duì)手寫(xiě)體漢字圖像的預(yù)處理,有效的保持了原始圖像信息和手寫(xiě)體漢字本質(zhì)特征,弱化或降低了原始圖像中存在的各種干擾因素,從而達(dá)到達(dá)到優(yōu)化原始圖像的效果。當(dāng)然,毫無(wú)疑問(wèn),預(yù)處理的好壞將直接影響特征提取的效率。
第二步特征提取。本文采用了
6、以下幾個(gè)步驟:1.對(duì)預(yù)處理好的手寫(xiě)體漢字提取筆畫(huà)的分叉點(diǎn);2.采用最大距離法提取筆畫(huà)拐點(diǎn);3.提取筆畫(huà)的傾斜度和端點(diǎn)坐標(biāo);4.修復(fù)預(yù)處理時(shí)不可避免產(chǎn)生的各種畸變;5.合并預(yù)處理時(shí)產(chǎn)生的偽交叉點(diǎn)等;6.構(gòu)造手寫(xiě)體筆畫(huà)結(jié)構(gòu)特征。
第三步匹配識(shí)別。在筆畫(huà)特征匹配識(shí)別階段,本文首先把手寫(xiě)體樣本漢字的筆畫(huà)作為特征存儲(chǔ)到模板庫(kù)中從而建立筆畫(huà)模板庫(kù),接著訓(xùn)練筆畫(huà)模板庫(kù),然后將每一個(gè)待識(shí)別手寫(xiě)體樣本漢字與系統(tǒng)的筆畫(huà)模板庫(kù)進(jìn)行匹配比對(duì),并計(jì)算待
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 脫機(jī)手寫(xiě)體漢字識(shí)別研究.pdf
- 基于特征融合的脫機(jī)手寫(xiě)體漢字識(shí)別.pdf
- 基于bandelet的脫機(jī)手寫(xiě)體漢字識(shí)別研究.pdf
- 基于稀疏表示的脫機(jī)手寫(xiě)體漢字識(shí)別研究.pdf
- 基于深度模型的脫機(jī)手寫(xiě)體漢字識(shí)別研究.pdf
- 基于SVM的脫機(jī)手寫(xiě)體漢字識(shí)別研究.pdf
- 基于模糊筆畫(huà)方向特征的脫機(jī)手寫(xiě)體漢字識(shí)別系統(tǒng).pdf
- 脫機(jī)手寫(xiě)體漢字識(shí)別方法的研究.pdf
- 脫機(jī)手寫(xiě)體漢字識(shí)別技術(shù)研究.pdf
- 基于筆畫(huà)重構(gòu)的脫機(jī)手寫(xiě)漢字識(shí)別研究.pdf
- 基于筆畫(huà)結(jié)構(gòu)特征的脫機(jī)手寫(xiě)漢字識(shí)別.pdf
- 脫機(jī)手寫(xiě)體漢字切分算法研究.pdf
- 基于筆畫(huà)結(jié)構(gòu)特征的脫機(jī)手寫(xiě)漢字識(shí)別
- 基于極限學(xué)習(xí)機(jī)的脫機(jī)手寫(xiě)體漢字識(shí)別研究.pdf
- 基于筆段的脫機(jī)手寫(xiě)體漢字識(shí)別方法研究.pdf
- 脫機(jī)手寫(xiě)體漢字識(shí)別的特征提取研究與實(shí)現(xiàn).pdf
- 基于SVM的脫機(jī)手寫(xiě)體漢字識(shí)別方法的研究.pdf
- 脫機(jī)手寫(xiě)體漢字識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于鄰域覆蓋的脫機(jī)手寫(xiě)體漢字切分.pdf
- 基于HMM的脫機(jī)手寫(xiě)體字符識(shí)別.pdf
評(píng)論
0/150
提交評(píng)論