版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、<p><b> 畢業(yè)論文文獻(xiàn)綜述</b></p><p><b> 計(jì)算機(jī)科學(xué)與技術(shù)</b></p><p> 基于SVM的手寫數(shù)字識(shí)別的應(yīng)用與實(shí)現(xiàn)</p><p><b> 引言:</b></p><p> 支持向量機(jī)(Support Vector Ma
2、chine,SVM)是由Vapnik于1995年提出的針對(duì)分類和回歸問題的統(tǒng)計(jì)學(xué)習(xí)理論,是在高維特征空間使用線性函數(shù)假設(shè)空間的學(xué)習(xí)系統(tǒng)。近年來,其理論研究和算法實(shí)現(xiàn)方面都取得了突破性進(jìn)展,開始成為克服維數(shù)災(zāi)難和過學(xué)習(xí)等傳統(tǒng)困難的有力手段。SVM方法具有許多引人注目的優(yōu)點(diǎn)和極有前途的實(shí)驗(yàn)性能,受到了越來越廣泛的重視。繼神經(jīng)網(wǎng)絡(luò)之后,該技術(shù)已經(jīng)成為機(jī)器學(xué)習(xí)研究領(lǐng)域中的新熱點(diǎn),并取得了非常理想的效果,在人臉識(shí)別、手寫體數(shù)字識(shí)別和網(wǎng)頁(yè)分類等領(lǐng)域
3、受到廣泛應(yīng)用。</p><p> 手寫體數(shù)字識(shí)別是手寫字符識(shí)別的一個(gè)重要分支,又可分為在線手寫體識(shí)別和離線手寫體識(shí)別。前者識(shí)別系統(tǒng)通過記錄文字圖像抬筆、落筆、字跡上各像素的空間位置,以及各筆段之間的時(shí)間關(guān)系等信息,對(duì)手寫體字符進(jìn)行識(shí)別;而后者因?yàn)槭请x線識(shí)別,無法獲取寫字者抬筆、落筆等筆劃信息,因此難度更大,但具有廣泛的應(yīng)用空間,如銀行票據(jù)、工商報(bào)表、財(cái)務(wù)報(bào)表等,再如郵件自動(dòng)分類等都需要對(duì)手寫體數(shù)字進(jìn)行識(shí)別。隨著
4、信息化及人工智能的發(fā)展,手寫數(shù)字識(shí)別的應(yīng)用市場(chǎng)已經(jīng)越來越廣泛了。</p><p><b> 1 研究動(dòng)態(tài)</b></p><p> 手寫數(shù)字識(shí)別在經(jīng)過過去幾十年的研究發(fā)展,取得了很大的成功,識(shí)別率在90%以上,但是作為數(shù)字識(shí)別它需要非常高的識(shí)別精度以及效率,因?yàn)閿?shù)字識(shí)別的錯(cuò)誤所帶來的影響非比尋常,比文字識(shí)別等其他字符識(shí)別所帶來的影響更大,尤其在金融、財(cái)會(huì)領(lǐng)域數(shù)字識(shí)
5、別的錯(cuò)誤所帶來的后果更是不可低估。手寫體數(shù)字識(shí)別一直是是多年來的研究熱點(diǎn),具有很廣泛的應(yīng)用范圍及很高的商業(yè)價(jià)值。目前,市場(chǎng)上也出現(xiàn)了許多手寫體數(shù)字識(shí)別系統(tǒng)的產(chǎn)品,在許多實(shí)際應(yīng)用系統(tǒng)(如郵政編碼自動(dòng)識(shí)別系統(tǒng)、銀行支票自動(dòng)處理系統(tǒng)等)中都有廣泛的應(yīng)用。顯然,高精度,高效率的手寫體數(shù)字識(shí)別器能夠提高實(shí)際應(yīng)用系統(tǒng)的整體性能,然而現(xiàn)在還沒有哪個(gè)手寫體數(shù)字識(shí)別系統(tǒng)能夠達(dá)到完美的識(shí)別效果。因此,進(jìn)一步提高手寫數(shù)字識(shí)別系統(tǒng)的識(shí)別精度和速率是每一位手寫數(shù)
6、字識(shí)別系統(tǒng)研究者的奮斗目標(biāo)。</p><p> 1929年德國(guó)科學(xué)家Taushek利用光學(xué)模板匹配識(shí)別,開創(chuàng)了用機(jī)器識(shí)別文字符的先河。歐美國(guó)家為了將繁瑣復(fù)雜的材料輸入計(jì)算機(jī),讓其進(jìn)行信息處理,從50年代就開始了西文光學(xué)字符識(shí)別(Optieal Character Recognition,OCR)的研究,OCR的意思就演變?yōu)榱死霉鈱W(xué)技術(shù)對(duì)文字和字符進(jìn)行掃描的識(shí)別,轉(zhuǎn)化為計(jì)算機(jī)內(nèi)碼。1960~70年代,世界各國(guó)相
7、繼開始了OCR的研究,OCR可以說是一種不確定的技術(shù)研究,因?yàn)闋砍兜綍鴮懻叩臅鴮懥?xí)慣,識(shí)別的方法,訓(xùn)練測(cè)試的樣本等因素,都會(huì)影響到識(shí)別的正確率。其正確率就像一個(gè)趨勢(shì)函數(shù),只能趨近,而不能達(dá)到100%,大家都以100%作為研究目標(biāo)。</p><p> 世界上第一個(gè)將該技術(shù)付諸實(shí)用的是日本東芝公司研發(fā)的手寫體郵政編碼識(shí)別的信函自動(dòng)分揀系統(tǒng),之后,隨著時(shí)間的推移,各種各樣的產(chǎn)品、系統(tǒng)相繼問世。中國(guó)對(duì)于OCR方面的研究
8、起步相對(duì)較晚,直到1989年,清華大學(xué)率先推出了國(guó)內(nèi)第一套中文OCR軟件——清華文通TH一OCR,至此中國(guó)的OCR技術(shù)正式起步。</p><p> 隨著研究的進(jìn)展,文字和數(shù)字識(shí)別市場(chǎng)穩(wěn)步擴(kuò)大,用戶遍布世界各地。近幾年來,中國(guó)國(guó)內(nèi)對(duì)于手寫數(shù)字識(shí)別的研究還是相當(dāng)成功的,取得了很大的成績(jī)。手寫數(shù)字識(shí)別技術(shù)可以用于郵政編碼、統(tǒng)計(jì)報(bào)表、財(cái)務(wù)報(bào)表、銀行票據(jù)等信息處理,一旦研究成功并投入應(yīng)用,將產(chǎn)生巨大的社會(huì)和經(jīng)濟(jì)效益。&l
9、t;/p><p> 總而言之,手寫體數(shù)字識(shí)別技術(shù)的研究是一項(xiàng)復(fù)雜的系統(tǒng)工程,雖然已經(jīng)經(jīng)過了20多年的研究和發(fā)展,但是在識(shí)別精度和速率上仍然很難符合實(shí)際應(yīng)用的要求,仍然需要相關(guān)的研究工作者一起努力研發(fā),可謂任重道遠(yuǎn)。隨著人工智能、心理學(xué)和計(jì)算機(jī)科學(xué)等學(xué)科的融合交叉發(fā)展,以及應(yīng)用市場(chǎng)需求的推動(dòng),手寫數(shù)字識(shí)別技術(shù)將會(huì)取得更進(jìn)一步的發(fā)展。</p><p> 2 SVM(支持向量機(jī))簡(jiǎn)介</p
10、><p> 2.1 SVM(支持向量機(jī))的特點(diǎn)</p><p> 支持向量機(jī)方法是建立在統(tǒng)計(jì)學(xué)習(xí)理論的VC維理論和結(jié)構(gòu)風(fēng)險(xiǎn)最小原理基礎(chǔ)上的,根據(jù)有限的樣本信息在模型的復(fù)雜性和學(xué)習(xí)能力即對(duì)特定訓(xùn)練樣本的學(xué)習(xí)精度和無錯(cuò)誤地識(shí)別任意樣本的能力之間尋找最佳的折衷,來獲得最佳推廣能力。它的主要優(yōu)點(diǎn)有:</p><p> ?。?)非線性映射是SVM方法的理論基礎(chǔ),SVM將輸入空
11、間中的非線性問題通過引用核函數(shù)映射到高維特征空間,然后在高維空間中構(gòu)造線性函數(shù)以作判別。</p><p> ?。?)對(duì)特征空間劃分的最優(yōu)超平面是SVM的目標(biāo),最大化分類邊際的思想是SVM方法的核心,SVM算法可最終轉(zhuǎn)化為凸優(yōu)化問題,因而可保證算法的全局最優(yōu)性,避免了神經(jīng)網(wǎng)絡(luò)無法解決的局部極值問題。</p><p> ?。?)支持向量機(jī)是基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化的原則,保證了學(xué)習(xí)機(jī)器具有良好的泛化
12、能力。</p><p> ?。?)SVM 是一種有堅(jiān)實(shí)理論基礎(chǔ)的新穎的小樣本學(xué)習(xí)方法。它能夠自動(dòng)識(shí)別出訓(xùn)練集中的一個(gè)子集,此子集基本上可以代表訓(xùn)練集中的全部信息,也就是說只有這個(gè)子集對(duì)分類及回歸問題的求解起作用。從本質(zhì)上看,它避開了從歸納到演繹的傳統(tǒng)過程,實(shí)現(xiàn)了高效的從訓(xùn)練樣本到預(yù)報(bào)樣本的“轉(zhuǎn)導(dǎo)推理”,大大簡(jiǎn)化了通常的分類和回歸等問題。</p><p> ?。?)SVM 的最終決策函數(shù)只由
13、少數(shù)的支持向量所確定,計(jì)算的復(fù)雜性取決于支持向量的數(shù)目,而不是樣本空間的維數(shù), 它將實(shí)際問題通過非線性變換轉(zhuǎn)換到高維的特征空間,在高維空間中構(gòu)造線性判別函數(shù)來實(shí)現(xiàn)原空間中的非線性判別函數(shù),特殊性質(zhì)能保證機(jī)器有較好的推廣能力,這在某種意義上避免了“維數(shù)災(zāi)難”。</p><p> ?。?)少數(shù)的支持向量決定了最終結(jié)果,這幫助我們抓住了關(guān)鍵樣本并“剔除”了大量冗余樣本;而且,使用該方法不但算法比較簡(jiǎn)單,而且還具有較強(qiáng)的
14、“魯棒”性,主要體現(xiàn)為:</p><p> ?、僭黾印h減非支持向量的樣本不會(huì)對(duì)模型造成影響;</p><p> ?、谥С窒蛄繕颖炯簿哂休^好的“魯棒性”;</p><p> ?、墼谝恍?yīng)用中,SVM 方法對(duì)核的選擇范圍比較廣泛。</p><p> 2.2 SVM(支持向量機(jī))原理</p><p> SVM以統(tǒng)計(jì)學(xué)
15、習(xí)理論為基礎(chǔ),它具有很強(qiáng)的學(xué)習(xí)能力以及泛化性能。SVM學(xué)習(xí)結(jié)果是支持向量的集合,一般是學(xué)習(xí)樣本集中的一小部分,支持向量集可以充分的體現(xiàn)整個(gè)樣本集的屬性。</p><p> SVM學(xué)習(xí)用優(yōu)化方法得到的結(jié)果是全局最優(yōu)解,不會(huì)產(chǎn)生傳統(tǒng)方法中的過學(xué)習(xí)和局部最小等問題。SVM學(xué)習(xí)結(jié)果為支持向量集,通常是學(xué)習(xí)樣本集的一小部分,支持向量集充分體現(xiàn)了整個(gè)樣本集的屬性。</p><p> SVM方法是通
16、過一個(gè)非線性映射,把樣本空間映射到一個(gè)高維乃至無窮維的特征空間中(H ilbert空間),使得在原來的樣本空間中非線性可分的問題轉(zhuǎn)化為在特征空間中的線性可分的問題.簡(jiǎn)單地說,就是升維和線性化.升維,就是把樣本向高維空間做映射,一般情況下這會(huì)增加計(jì)算的復(fù)雜性,甚至?xí)鹁S數(shù)災(zāi)難,因而人們很少問津。但是作為分類、回歸等問題來說,很可能在低維樣本空間無法線性處理的樣本集,在高維特征空間中卻可以通過一個(gè)線性超平面實(shí)現(xiàn)線性劃分(或回歸).一般的升
17、維都會(huì)帶來計(jì)算的復(fù)雜化,SVM方法巧妙地解決了這個(gè)難題:應(yīng)用核函數(shù)的展開定理,就不需要知道非線性映射的顯式表達(dá)式;由于是在高維特征空間中建立線性學(xué)習(xí)機(jī),所以與線性模型相比,不但幾乎不增加計(jì)算的復(fù)雜性,而且在某種程度上避免了維數(shù)災(zāi)難.這一切要?dú)w功于核函數(shù)的展開和計(jì)算理論.</p><p> 選擇不同的核函數(shù),可以生成不同的SVM,常用的核函數(shù)有以下幾種:</p><p><b>
18、 線性核函數(shù):</b></p><p><b> 多項(xiàng)式核函數(shù):</b></p><p> 徑向基(RBF)核函數(shù): </p><p> 3 基于SVM(支持向量機(jī))手寫數(shù)字識(shí)別的特征提取問題</p><p> 對(duì)于手寫數(shù)字圖像,雖然沒有人臉圖像那樣有更多的維數(shù),但是像64×64維、32&
19、#215;32維對(duì)于手寫數(shù)字識(shí)別系統(tǒng)來說已經(jīng)算多了,如果直接拿去進(jìn)行訓(xùn)練識(shí)別將會(huì)大大影響系統(tǒng)的識(shí)別速度、效率等,因此進(jìn)行特征提取還是有必要的。</p><p> 基于核的主成分分析方法是傳統(tǒng)主成分分析(PCA)方法的推廣。對(duì)于樣本集{,…},主成分方向是矩陣的特征向量。對(duì)x進(jìn)行非線性變換,可得到,其特征向量v就是原樣本集的非線性主成分方向,滿足。將每個(gè)樣本與該式內(nèi)積,得:</p><p>
20、; 可以證明,特征向量v可以寫成,定義矩陣:</p><p> 為矩陣的第i行第j列個(gè)元素,可以得到:</p><p> 其中,從矩陣K的特征向量即可求出的特征向量v,即空間的主成分方向,可獲得所要求的特征值和特征向量。對(duì)于原空間中的任意向量x,它在變換空間中的主成分是在主成分方向v上的投影,即:</p><p> 顯然,這里得到的非線性主成分方法只需在原空
21、間中計(jì)算用作內(nèi)積的核函數(shù)。</p><p> 基于核的主成分分析方法進(jìn)行特征提取中要采用核函數(shù),實(shí)驗(yàn)中可采用各種核函數(shù)進(jìn)行實(shí)驗(yàn)比較它們的效果。</p><p><b> 4 總結(jié)</b></p><p> 相比BP神經(jīng)網(wǎng)絡(luò),SVM具有算法簡(jiǎn)單、無需先驗(yàn)知識(shí)、易于控制、易于訓(xùn)練、穩(wěn)定性好等優(yōu)點(diǎn).雖然SVM可以很好地解決小樣本情況下的識(shí)別問題
22、,但是如果能夠收集更多的訓(xùn)練樣本仍然對(duì)提高識(shí)別率是有益的.一個(gè)好的手寫數(shù)字識(shí)別系統(tǒng)不但要有良好的識(shí)別性能,而且要有良好的識(shí)別速度和識(shí)別效率,只有這樣才能在實(shí)際系統(tǒng)中得到廣泛的應(yīng)用。基于支持向量機(jī)的手寫數(shù)字識(shí)別系統(tǒng)要想在實(shí)際中得到應(yīng)用就必須解決這兩方面的問題。支持向量機(jī)有很強(qiáng)的學(xué)習(xí)能力和較好的泛化性能,因此系統(tǒng)在識(shí)別性能上是比較好的,但是在識(shí)別速度、識(shí)別效率上就有待提高。手寫數(shù)字識(shí)別是一個(gè)大樣本識(shí)別,因此也會(huì)有支持向量多的缺點(diǎn)。</
23、p><p> 基于支持向量機(jī)的手寫數(shù)字識(shí)別系統(tǒng)有較好的識(shí)別性能,只要解決識(shí)別速度、識(shí)別效率問題將會(huì)使系統(tǒng)得到更廣泛的應(yīng)用</p><p><b> 參考文獻(xiàn)</b></p><p> [1]蒙庚祥,方景龍.基于支持向量機(jī)的手寫體數(shù)字識(shí)別系統(tǒng)設(shè)計(jì).計(jì)算機(jī)工程與設(shè)計(jì),2005(26).6 </p><p> [2]劉宏兵
24、,熊盛武.用于手寫數(shù)字識(shí)別的改進(jìn)模糊支持向量機(jī).小型微型計(jì)算機(jī)系統(tǒng),2008(29).05 </p><p> [3]柳回春,馬樹元,吳平東,李曉梅.手寫體數(shù)字識(shí)別技術(shù)的研究.計(jì)算機(jī)工程,2003(29).4 </p><p> [4]張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī).自動(dòng)化學(xué)報(bào),2000(26).01 </p><p> [5]吳今培.基于核函數(shù)的主成分
25、分析及應(yīng)用.系統(tǒng)工程,2005(23).02 </p><p> [6]汪同慶,居琰,任莉.基于神經(jīng)網(wǎng)絡(luò)及多層次信息整合的手寫數(shù)字識(shí)別.小型微型計(jì)算機(jī)系統(tǒng),2003(24).12 </p><p> [7]卜富清,王茂芝,于慶剛. 基于BP神經(jīng)網(wǎng)絡(luò)的數(shù)字識(shí)別.長(zhǎng)江大學(xué)學(xué)報(bào)(自然科學(xué)版)2009(6).6 </p><p> [8]張曉龍,任芳.支持向量機(jī)與Ad
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于svm的手寫數(shù)字識(shí)別的應(yīng)用與實(shí)現(xiàn)【開題報(bào)告】
- 基于SVM技術(shù)的手寫數(shù)字識(shí)別的研究.pdf
- 基于SVM的脫機(jī)手寫體數(shù)字識(shí)別的研究與應(yīng)用.pdf
- 基于DS-SVM的手寫體數(shù)字識(shí)別的研究.pdf
- 手寫數(shù)字識(shí)別技術(shù)研究【文獻(xiàn)綜述】
- SVM在手寫數(shù)字識(shí)別中的應(yīng)用研究.pdf
- 基于支持向量機(jī)的手寫數(shù)字識(shí)別的研究(1)
- 基于支持向量機(jī)的手寫數(shù)字識(shí)別的研究.pdf
- 票據(jù)中手寫數(shù)字識(shí)別的研究.pdf
- 語(yǔ)音識(shí)別的綜述【文獻(xiàn)綜述】
- 基于手寫體數(shù)字識(shí)別的信息錄入與處理系統(tǒng).pdf
- 基于模式識(shí)別的手寫樂譜數(shù)字化研究.pdf
- 手寫數(shù)字識(shí)別技術(shù)研究【畢業(yè)設(shè)計(jì)+開題報(bào)告+文獻(xiàn)綜述】
- 銀行票據(jù)手寫數(shù)字串識(shí)別的預(yù)處理與分割.pdf
- 藏文聯(lián)機(jī)手寫識(shí)別的研究與實(shí)現(xiàn)索
- 水表數(shù)字識(shí)別的研究與實(shí)現(xiàn).pdf
- 基于k近鄰的手寫數(shù)字識(shí)別
- SVM和受限玻爾茲曼機(jī)在手寫數(shù)字識(shí)別中的應(yīng)用.pdf
- 手寫體字符識(shí)別的研究與應(yīng)用.pdf
- 手寫數(shù)字識(shí)別系統(tǒng)研究與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論