版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、漢字篆字識(shí)別系統(tǒng)文獻(xiàn)綜述 漢字篆字識(shí)別系統(tǒng)文獻(xiàn)綜述機(jī)械工程學(xué)院 研 1201 班 吳金明1.1 1.1 概述 概述漢字識(shí)別是用計(jì)算機(jī)自動(dòng)辨識(shí)寫在紙(或介質(zhì)) 上的漢字, 是智能計(jì)算機(jī)接口的一個(gè)重要組成部分, 也是中文信息處理中漢字自動(dòng)、高速輸人的一種最重要手段.作為模式識(shí)別和人工智能學(xué)科的一個(gè)分支一文字(漢字) 識(shí)別技術(shù)在我國(guó) 自 70 年代末起步, 至今已有 30 多
2、 年了, 目前正向?qū)嵱没蟛竭~進(jìn)。在本文中所要解決的問題是對(duì)漢字中的篆字進(jìn)行識(shí)別,對(duì)于漢字篆字識(shí)別系統(tǒng)目前國(guó)內(nèi)還沒有成熟的研究,但是其基本原理同其他字體的識(shí)別相似。篆字是很古老的一種漢字,在我國(guó)漢文字發(fā)展史上,篆字是大篆、小篆的統(tǒng)稱,亦稱篆書。大篆指甲骨文、金文、籀文、六國(guó)文字,它們保存著古代象形文字 的明顯特點(diǎn)。小篆也稱“秦篆”,是秦國(guó)的通用文字,大篆的簡(jiǎn)化字體,其特點(diǎn)是形體勻逼齊整、字體較籀文容易書寫。它是大篆由隸、楷之間的過渡。所
3、以研究篆字文化具有十分重要的歷史意義。掌握了篆字的特征是漢字識(shí)別很重要的前提。目前,對(duì)于漢字識(shí)別系統(tǒng)應(yīng)用最廣泛的就是光學(xué)字符識(shí)別(Optical Character Recognition),自從 1929 年Tausheck 取得光學(xué)字符識(shí)別(Optical Character Recognition)專利以來,經(jīng)過近一個(gè)世紀(jì)的發(fā)展,OCR 已經(jīng)成為當(dāng)今模式識(shí)別領(lǐng)域中最活躍的研究?jī)?nèi)容之一。它 綜合了數(shù)字圖像處理、計(jì)算機(jī)圖形學(xué)和人工智能
4、等多方面的知識(shí),并在計(jì)算機(jī)及其相關(guān)領(lǐng)域中得到了廣泛應(yīng)用。漢字識(shí)別過程大體如下:1.2 1.2 光學(xué)字符識(shí)別方法及分類 光學(xué)字符識(shí)別方法及分類光學(xué)字符識(shí)別過程首先使識(shí)別設(shè)備學(xué)習(xí)、記憶將要辨識(shí)字符的特征,使這些特征成為識(shí)別系統(tǒng)自身的知識(shí),然后再利用這些先驗(yàn)知識(shí)對(duì)輸入圖像進(jìn)行判 決,得到字符的識(shí)別結(jié)果。字符的特征不僅僅局限于平面上的點(diǎn)陣位置信息, 在頻率空間、投影空間,甚至語義空間字符都有各自的特征。這些特征在識(shí)別字符時(shí)又有各自的特點(diǎn)及優(yōu)勢(shì)。
5、根據(jù)識(shí)別字符所采用具體特征的不同便衍生出 了不同的識(shí)別技術(shù)。通常,根據(jù)不同的技術(shù)策略,識(shí)別方法可以分為如下 3類:統(tǒng)計(jì)特征字符識(shí)別技術(shù)、結(jié)構(gòu)字符識(shí)別技術(shù)和基于神經(jīng)網(wǎng)絡(luò)的識(shí)別技術(shù)。1.3 1.3 光學(xué)字符識(shí)別的近期發(fā)展 光學(xué)字符識(shí)別的近期發(fā)展1.采用激光作為掃描光源。這是因?yàn)榧す夤馐? 方向性強(qiáng), 掃描光點(diǎn)極小, 因而能顯著地提高分辨能力。另外, 激光光源的壽命比普通光源長(zhǎng)許多倍, 光學(xué)系統(tǒng)比較簡(jiǎn)單, 不需要特制的高精度高壓電源,因此
6、, 其造價(jià)也可大幅度降 低。但其缺點(diǎn)是掃描系統(tǒng)大都采用機(jī)械式的光點(diǎn)偏轉(zhuǎn)機(jī)構(gòu), 對(duì)激光束控制不夠靈活, 掃描速度較慢。除激光掃描法外, 還有用半導(dǎo)體光敏元件組成的二維面板(3)多種策略的綜合集成 在 OCR 領(lǐng)域,雖然新的算法思路不斷涌現(xiàn),但是在一個(gè)高效的 OCR 系統(tǒng)中 僅僅采用一種識(shí)別方式是無法滿足現(xiàn)實(shí)要求的。單個(gè)識(shí)別策略的能力有限,因 此采用多種策略實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ),多角度利用字符的特征信息是 OCR 發(fā)展的方向。在這個(gè)方向上經(jīng)常采用的
7、集成策略有投票法、概率法、Dempster-Shafer 法以及行為知識(shí)空間法等多種綜合方法。以投票法為例,顧名思義,每種識(shí)別策略都擁有一張選票,對(duì)于同一個(gè)字符不同策略各自產(chǎn)生自己的結(jié)果即投票,所有策略投票之后,得票最多的識(shí)別結(jié)果就是最終的識(shí)別結(jié)果。顯然,在這種 綜合方式中需要大量資源。一方面要使各種算法都能夠完成,另一方面,如果 各種算法間的并行性不好,總的執(zhí)行時(shí)間就要成倍增長(zhǎng)。1.5 1.5 漢字識(shí)別現(xiàn)狀分析 漢字識(shí)別現(xiàn)狀分析漢字識(shí)
8、別方法盡管多種多樣〔洲, 但關(guān)鍵問題是特征提取和分類器的設(shè)計(jì), 穩(wěn)定的特征提取方法和良好性能的分類器設(shè)計(jì)是整個(gè)識(shí)別系統(tǒng)的核心,它們直接決定了識(shí)別系統(tǒng)的能。目前,有許多漢字特征提取的方法, 例如基于模糊方向像素的特征提取、基于彈性網(wǎng)格方向的分解特征提取、基于梯度的特征提取、基于筆畫和筆順的特征提取、基于結(jié)構(gòu)的特征提取等特征提取的方法。另外, 也有人把小波變換技術(shù)用于漢字的識(shí)別。再者, 隨著人工神經(jīng)網(wǎng)絡(luò)技術(shù)的日益發(fā)展, 基于 RBF-DDA
9、神經(jīng)網(wǎng)絡(luò)、Hopfield 網(wǎng)絡(luò)、ART 網(wǎng)絡(luò)、自組織特征映射網(wǎng)絡(luò)、認(rèn)知器模型等的漢 字識(shí)別技術(shù)也越來越被人們重視??偟膩碚f, 漢字識(shí)別方法按特征提取和分類器設(shè)計(jì)不同, 通常可分為統(tǒng)計(jì)模式識(shí)別法、結(jié)構(gòu)模式識(shí)別法(或稱句法識(shí)別法)、統(tǒng)計(jì)與結(jié)構(gòu)相結(jié)合的識(shí)別法(或稱語義句法識(shí)別法) 及人工神經(jīng)網(wǎng)絡(luò)識(shí)別法等。1.6 1.6 我國(guó)漢字識(shí)別技術(shù)的展望 我國(guó)漢字識(shí)別技術(shù)的展望當(dāng)前漢字識(shí)別的發(fā)展非常迅速, 許多成果均已走向?qū)嵱? 但是不少成果還不成熟,
10、主要問題是識(shí)別率還不很令人滿意, OCR 輸出結(jié)果還需要費(fèi)力校對(duì)才可, 這大大限制了其實(shí)用性。此外我國(guó)對(duì)漢識(shí)別成果缺乏公共的評(píng)價(jià)材料和手段, 即對(duì)漢字識(shí)別成果沒有建立一種公共的測(cè)試方法,也沒有公共的測(cè)試數(shù)據(jù)庫, 因 此其成果缺乏可比性, 難以判斷成果的實(shí)際水平。對(duì)于漢字識(shí)別未來的發(fā)展前途, 我們應(yīng)抱著樂觀的態(tài)度。因?yàn)闊o論是腦機(jī)能的研究( 主要是指人的文字識(shí)別 機(jī)制的研究) 還是計(jì)算機(jī)性能的提高都會(huì)不斷促進(jìn)文字識(shí)別理論和技術(shù)發(fā)展, 并
11、最終達(dá)到理想的目標(biāo)。1.識(shí)別方法上仍走統(tǒng)計(jì)和結(jié)構(gòu)方法相結(jié)合的道路 一種漢字識(shí)別的方法就是指特征選擇抽取、分類判別的方法. 特征抽取、分類判別是漢字識(shí)別的核心, 決定了識(shí)別系統(tǒng)的品質(zhì)。盡管不同的識(shí)別系統(tǒng)具 體的識(shí)別方法各不相同, 但就本質(zhì)而言, 可以歸納為統(tǒng)計(jì)和結(jié)構(gòu)兩類基本方法。 目前漢字識(shí)別在結(jié)構(gòu)方法中應(yīng)用了統(tǒng)計(jì)方法的模式分布性質(zhì), 而在統(tǒng)計(jì)方法中, 模式的表示也體現(xiàn)了模式結(jié)構(gòu)特征.統(tǒng)計(jì)法宜識(shí)別有噪聲的文字, 特征抽取容易 且穩(wěn)定, 但
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于labview的聲音識(shí)別系統(tǒng)設(shè)計(jì)【文獻(xiàn)綜述】
- 指紋識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)-文獻(xiàn)綜述
- 自然手寫漢字聯(lián)機(jī)識(shí)別系統(tǒng).pdf
- 基于神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別系統(tǒng)設(shè)計(jì)【文獻(xiàn)綜述】
- 車牌識(shí)別系統(tǒng)外文文獻(xiàn)
- 常用漢字的結(jié)構(gòu)編碼與識(shí)別系統(tǒng).pdf
- 手寫漢字離線識(shí)別系統(tǒng)的設(shè)計(jì)與開發(fā).pdf
- 聯(lián)機(jī)手寫漢字識(shí)別系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 印刷體漢字識(shí)別系統(tǒng)的研究與實(shí)現(xiàn).pdf
- 漢字識(shí)別方法研究及其在車牌識(shí)別系統(tǒng)中的應(yīng)用.pdf
- 基于圖像匹配的漢字識(shí)別系統(tǒng)研究與實(shí)現(xiàn).pdf
- 基于FPGA的手寫漢字識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 一種基于stc單片機(jī)的特定聲音識(shí)別系統(tǒng)設(shè)計(jì)【文獻(xiàn)綜述】
- 基于神經(jīng)網(wǎng)絡(luò)的人臉識(shí)別系統(tǒng)設(shè)計(jì)【畢業(yè)論文+文獻(xiàn)綜述+開題報(bào)告】
- 印刷體漢字識(shí)別系統(tǒng)的特征提取和匹配識(shí)別研究.pdf
- 人臉識(shí)別系統(tǒng)
- 人臉識(shí)別系統(tǒng)
- 車牌識(shí)別系統(tǒng)
- 基于神經(jīng)網(wǎng)絡(luò)分類器的漢字識(shí)別系統(tǒng)研究.pdf
- 語音識(shí)別的綜述【文獻(xiàn)綜述】
評(píng)論
0/150
提交評(píng)論