基于分形矩的印刷體藏文字符識別技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩56頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、字符識別是模式識別的一個重要分支,藏文字符識別則因其字型的結(jié)構(gòu)復雜、相似字的比例高等原因,而一直是字符識別中一個具有挑戰(zhàn)性的難題。相對于漢字的字符識別研究而言,目前印刷體藏文字符的識別研究還比較少。藏文字符的自動識別研究是進行少數(shù)民族語言文字信息處理和信息化的一個重要方面,它對于整理藏文記錄的經(jīng)典文獻、古籍著述具有重要的價值,對于穩(wěn)定邊境和推進西部開發(fā)等方面也有潛在的作用。 本文首先介紹了字符識別的一般原理、步驟和字符識別的常用

2、方法,以及印刷體藏文字符識別的特殊性和研究現(xiàn)狀等。然后,文中對印刷體藏文字符識別進行了具體的研究。首先是藏文字丁圖像的預處理,其過程大致可分為二值化、平滑、行字切分和歸一化等步驟,預處理后將得到大小統(tǒng)一的藏文字丁圖像。對于這里的每個步驟,文中都選取了適合于處理藏文字丁的方法:對于初始得到的藏文字符圖像,首先采用整體閾值二值化方法對其進行了二值化處理,并使用中值濾波器對二值化之后的字符圖像進行了平滑,然后,采用積分投影法進行行、字切分,最

3、后通過三次B樣條函數(shù)將藏文字符歸一化為96×48的點陣。 第二步是特征提取工作,目的是為了去除圖像信息中對分類沒有幫助的部分,將圖像信息集中到有代表性的特征上來的過程。特征向量中只有包含足夠的類別信息,才有可能通過分類器完成無差錯的模式分類。文中首先對前人提出的兩種特征提取方法——圖像投影法和方向線素法——進行了介紹。圖像投影法的抗干擾能力較強,但是該方法區(qū)分相似字的能力較差;方向線素法的特征提取效果較好,通常能夠提取出原字丁的

4、足夠特征,但其提取的特征向量維數(shù)過多,從而使得字丁匹配過程的復雜度較高。鑒于前面兩種方法的不足,本文提出了一種基于分形矩的藏文字符特征提取算法,用該算法提取的特征可以有效地反映藏文字丁的局部和全局特征,在一定程度上克服了藏文相似字丁極多而造成的誤識率高的缺點,并且解決了由于特征向量維數(shù)較多造成的運算速度慢的問題。 由于難以確定特征向量中是否已包含足夠的類別信息,為了提高類別正確識別率,在進行特征提取時,往往盡可能地增加提取的特征

5、的數(shù)目,這就使得提取到的特征向量中存在相關(guān)性和冗余,因此,為了減輕分類器的設計難度,提高系統(tǒng)的運行效率,在提取到藏文字丁的原始特征后,還需要進行特征選擇(降維)。關(guān)于特征選擇,文中主要對主成份分析和多重判別分析進行了介紹和分析對比。主成分分析的目的是尋找在最小均方意義下,最能夠代表原始數(shù)據(jù)的投影,而多重判別分析的目的是尋找在最小均方意義下,最能夠分開各類數(shù)據(jù)的投影。 最后一步工作是分類識別,在統(tǒng)計模式識別中,往往把各類模式的特征

6、向量的統(tǒng)計平均值作為該類的基準模板,將待分類模式的特征向量與各類模式的基準模板進行比較,按照最小距離分類準則進行決策分類。本文把各個藏文字丁圖像的特征向量的統(tǒng)計平均值作為該藏文字丁的基準模板,將待分類字丁圖像的特征向量與各個藏文字丁的基準模板進行比較,采用最小距離分類器進行印刷體藏文字符的識別。并主要介紹了KNN算法和多種距離度量(歐氏距離、馬氏距離和街區(qū)距離)下的Bayes分類算法。 文中使用不同的特征提取、特征選擇和識別算法

7、,進行了多次藏文字符識別實驗,并從藏文字丁的識別率、識別速度、拒識率和識別的可靠性等方面,將它們進行了對比。在本文的藏文字丁分類識別實驗中,通過使用方向線素法和分形矩法提取特征,使用主成分分析法選擇特征并使用基于馬氏距離的Bayes分類算法,可以達到最高的識別率。此時,對使用分形矩法提取到的特征進行識別時得到的識別率略高,并且對使用分形矩法提取到的特征進行分類識別時,其識別速度遠遠高于使用方向線素法時的速度。因此,本文提出的分形矩法可以

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論