統(tǒng)計(jì)切線距離方法的研究及其在手寫體字符識(shí)別中的應(yīng)用.pdf_第1頁(yè)
已閱讀1頁(yè),還剩117頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、本文對(duì)手寫體字符識(shí)別中的特征提取、距離分類方法以及識(shí)別系統(tǒng)的性能評(píng)價(jià)進(jìn)行了研究。尤其是對(duì)一種新的統(tǒng)計(jì)距離方法:切線距離方法進(jìn)行了研究和探索。在統(tǒng)計(jì)切線距離、基于奇異值分解求解切線向量、變化參數(shù)的選擇、基于奇異值分解的降維、基于馬氏距離的特征選擇等方面提出了自己的新方法。全文主要的創(chuàng)新點(diǎn)包括以下幾個(gè)方面:本文提出了基于切線距離和奇異值分解的統(tǒng)計(jì)切線距離新方法。本文把切線距離的概念進(jìn)行了進(jìn)一步的延伸,在原始圖像的基礎(chǔ)上,用奇異值

2、分解方法直接提取樣本集合中所包含變化的方向,作為訓(xùn)練樣本的切線向量。最初的切線距離方法是用經(jīng)驗(yàn)估計(jì)樣本中包含的仿射變化的方向和大小,但是這種方法的應(yīng)用范圍有較大的局限性,而且估計(jì)的變化的方向和大小經(jīng)常不夠準(zhǔn)確。切線子空間方法中,把奇異值分解用于迭代中求解切線子空間參數(shù),但是這種方法計(jì)算非常復(fù)雜。同時(shí),上述的兩種方法都需要對(duì)二值圖像進(jìn)行模糊化。和上述兩種方法相比,本方法避免了模糊化的歧意性,處理更加簡(jiǎn)單;而且它能更準(zhǔn)確的描述訓(xùn)

3、練樣本集合中的變化的方向,進(jìn)一步提高了分類精度。和其它兩種方法相比,具有更強(qiáng)的實(shí)用性。實(shí)驗(yàn)結(jié)果表明,本方法可以得到比歐氏距離低約8至9倍的分類錯(cuò)誤率,比切線子空間的分類錯(cuò)誤率降低約4至5倍。本方法即可以單獨(dú)使用,也可以和k-均值聚類結(jié)合使用,進(jìn)一步提高分類精度。當(dāng)聚類個(gè)數(shù)增加到每一類15個(gè)時(shí),得到的分類錯(cuò)誤率為0.0006。此外,隨著變換向量個(gè)數(shù)的增加,統(tǒng)計(jì)切線距離的分類精度可以逐漸提高,同時(shí)算法的時(shí)間復(fù)雜度也逐漸增加。因此可

4、以在允許的時(shí)間耗費(fèi)范圍內(nèi),選擇最大數(shù)目的變換向量,從而獲得最佳的分類性能。奇異值分解降維方法在統(tǒng)計(jì)切線距離和切線距離以及切線子空間方法中的應(yīng)用。利用奇異值分解進(jìn)行降維,可以根據(jù)樣本集合的秩,剔除對(duì)分類無(wú)意義的冗余信息,實(shí)現(xiàn)樣本向量的無(wú)損壓縮;也可以根據(jù)奇異值的大小進(jìn)行可控誤差范圍的有損壓縮。降維不但可以降低計(jì)算復(fù)雜性,而且給工程上經(jīng)常遇到的高維小子集模式分類問(wèn)題提供了一種解決方案。從另一個(gè)角度來(lái)看,降維方法把切線距離和統(tǒng)計(jì)切

5、線距離由高維的像素空間延伸到了低維的特征空間,這進(jìn)一步拓展了人們應(yīng)用切線距離的思路。本文提出了經(jīng)驗(yàn)方法求切線向量時(shí)變換參數(shù)的選擇方法,該方法能夠使經(jīng)驗(yàn)求解切線向量的方法得到最優(yōu)的分類性能。本文在距離的概念上提出了分類性能函數(shù),作為衡量切線距離分類性能的準(zhǔn)則。并進(jìn)一步根據(jù)分類性能函數(shù)的極值點(diǎn)和可線性化區(qū)域提出了一個(gè)直接衡量切線距離有效性的性能參數(shù)。在使性能參數(shù)最大為前提的條件下,選擇變換參數(shù)的最佳設(shè)定值。本算法克服了以往經(jīng)驗(yàn)方

6、法求解切線向量時(shí)選擇變換參數(shù)的主觀盲目性,提高了分類器的分類性能。同時(shí),本文中提出的分類性能函數(shù)和性能參數(shù)可以作為一種有效的距離衡量準(zhǔn)則。本文中提出了基于矩陣跡函數(shù)求導(dǎo)法則的“偽逆法”求解切線距離中切線空間坐標(biāo)的方法。以往的求解方法大多是采用梯度法或者牛頓法進(jìn)行搜索。但是迭代算法的效率非常低。本文基于對(duì)矩陣跡函數(shù)求導(dǎo)的法則,推導(dǎo)出了“偽逆法”求解切線空間坐標(biāo)的公式。這種方法的意義在于將原來(lái)運(yùn)算耗時(shí)極大的二次最小迭代算法用矩陣

7、運(yùn)算來(lái)代替,大大提高了算法效率。本文進(jìn)一步分析了切線距離的理論基礎(chǔ),并結(jié)合實(shí)驗(yàn),總結(jié)得出了切線距離以下的性質(zhì)和應(yīng)用規(guī)律:在切線向量矩陣中增加某種變化在不同變化方向上的切線向量能夠提高切線距離的線性范圍和分類精度;雙邊切線距離比單邊切線距離得到更大的線性范圍和分類精度。本文提出了“基于馬氏距離的特征提取”方法,該方法通過(guò)迭代得出了類間馬氏距離最大意義下的最優(yōu)解。在用最小錯(cuò)誤概率上界作為衡量標(biāo)準(zhǔn)的情況下,本算法得到了最小錯(cuò)誤

8、概率近似值意義下的最優(yōu)解。和“基于平均馬氏距離特征提取”方法相比,本文中的算法考慮到了模式的類內(nèi)和類間的概率分布,類別可分性判據(jù)更接近實(shí)際情況;當(dāng)用于多類情況時(shí),具有更合理的數(shù)學(xué)表達(dá)形式和更明確的物理意義。和“基于巴氏距離的特征提取”方法相比,在最小錯(cuò)誤概率上界上升很小的前提下,大大簡(jiǎn)化了計(jì)算過(guò)程,提高了算法效率。本文提出了一種針對(duì)表單型OCR系統(tǒng)的經(jīng)驗(yàn)性能評(píng)價(jià)方法。本文中對(duì)表單型OCR系統(tǒng)的工作流程及算法特點(diǎn)進(jìn)行了分析,根

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論