基于SVM的脫機手寫體漢字識別研究.pdf_第1頁
已閱讀1頁,還剩92頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、脫機手寫體漢字識別目前仍然是模式識別中最困難的問題之一,因而也是手寫中文信息化的主要障礙之一,它的研究對漢字信息處理自動化及開拓新一代計算機的智能輸入都有著重要的意義。由于脫機手寫體漢字是一個超多類復(fù)雜模式識別問題,以往的研究顯示,要想得到較高的識別率,需要集成多種識別方法,但同時也增加了系統(tǒng)開銷。支持向量機理論是基于統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上的,有較好的理論框架。它在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢。脫機手寫體漢字識

2、別屬于復(fù)雜高維模式識別問題,將SVM理論運用于脫機手寫體漢字的識別有較大的理論意義和實踐價值。 論文所涉及到的主要內(nèi)容如下: (1)概論。闡述了脫機手寫體漢字識別研究的目的和意義,并對當前在此研究領(lǐng)域內(nèi)存在的困難進行了說明。通過漢字識別已往的研究歷程和現(xiàn)在的發(fā)展現(xiàn)狀總結(jié)了漢字識別的一般原理與方法。 (2)脫機手寫體漢字自動錄入接口設(shè)計。設(shè)計了一個脫機手寫體漢字掃描過程自動人機接口模型。利用TWAIN協(xié)議(計算機應(yīng)

3、用程序與光柵圖像獲取設(shè)備標準通信協(xié)議),無須人為操作,應(yīng)用程序?qū)⒓堎|(zhì)文檔的手寫漢字信息按照人為設(shè)置要求自動錄入計算機成規(guī)定格式便于后期預(yù)處理、特征提取和識別,從而提高了效率。 (3)脫機手寫體漢字樣本的收集及圖像預(yù)處理。采用設(shè)計專用表格的方式對年齡分布段為18~60歲的不同職業(yè)、性別、學(xué)歷的人的一般手寫字體進行樣本收集。受人員和經(jīng)費的限制,收集的漢字類別為GB2312-80一級字庫中的前50類漢字,每類漢字收集108個樣本。對收

4、集的漢字樣本進行灰度化、二值化,傾斜校正,表格標記定位,漢字切分,歸一化處理形成樣本庫。 (4)特征提取。將網(wǎng)格方向特征作為手寫體漢字特征。闡述了4種彈性網(wǎng)格構(gòu)造方法,并對它們在吸收手寫體漢字形變能力和算法性能方面作了分析和比較。對3種漢字方向分解法進行闡述和分析,得出3種方法各自存在優(yōu)點與缺陷,適用于不同的應(yīng)用環(huán)境。經(jīng)綜合分析,本文選取基于點密度均衡的彈性網(wǎng)格構(gòu)造法與3種漢字方向分解法組成3種手寫體漢字特征(骨架特征、邊緣特征

5、和筆畫特征),其中,本文針對AND分解和OR分解得出的相應(yīng)骨架特征的各自特點,將骨架特征進行了改進,融合了兩者優(yōu)點,形成新的骨架特征。本文對這3種特征提取算法在時間復(fù)雜度和反映漢字筆畫準確度方面給出了定性的比較分析。從實驗結(jié)果可以看出這3種特征都能有效反映出手寫體漢字的特征。 (5)基于支持向量機的漢字識別。本文首次將上文所提的骨架特征、邊緣特征和筆畫特征用于支持向量機分類器,利用支持向量機理論通過對少量漢字樣本的學(xué)習(xí)獲得推廣性

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論