基于Tesseract開(kāi)源OCR引擎的證件識(shí)別系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf_第1頁(yè)
已閱讀1頁(yè),還剩60頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、證件的識(shí)別這個(gè)事務(wù)出現(xiàn)在日常生活中的各個(gè)場(chǎng)合,例如在入住酒店時(shí)需要使用身份證實(shí)名認(rèn)證,交警在處理交通事故的時(shí)候也需要對(duì)駕駛員的身份證和駕駛證進(jìn)行核對(duì),確認(rèn)當(dāng)事人的身份。
  因?yàn)橐M(jìn)行OCR識(shí)別,原圖片的獲取可以說(shuō)是基礎(chǔ)的一個(gè)要素。最理想的輸入設(shè)備應(yīng)該是掃描儀。掃描的輸入最為純凈,沒(méi)有附帶的背景,并且能保持圖像的正面成像,還能給與較高的分辨率和色彩還原度。但是掃描儀并不是常備的設(shè)備,更多時(shí)候的圖像采取可能需要手機(jī)的攝像頭,顯然通過(guò)

2、這樣的方式獲取到的原圖像質(zhì)量會(huì)比較低??赡苡龅降膯?wèn)題有,光線的不均勻造成的失真,拍照時(shí)沒(méi)法拍到正面而產(chǎn)生的透視形變,之后即便再高級(jí)的攝像機(jī)由于光學(xué)的成像原理在邊緣處都會(huì)有一些形變而造成失真。為了解決這些問(wèn)題本文提到了一系列圖像處理的方法來(lái)提升原圖像的質(zhì)量,進(jìn)而提升識(shí)別的精確度。
  在修正圖像的透視形變這方面本文介紹的較為詳細(xì)。從透視產(chǎn)生的原理,到解決透視問(wèn)題的數(shù)學(xué)方法。以及在實(shí)現(xiàn)上為了快速開(kāi)發(fā)而使用的OpenGL庫(kù),或者是為了在

3、移動(dòng)端進(jìn)行擴(kuò)展而采用優(yōu)化過(guò)的快速反透視變換算法。結(jié)合這些技術(shù)可以使得在照相機(jī)上獲取的帶有透視形變的證件快速還原成其原始的形態(tài),再按證件的格式分析送入實(shí)驗(yàn)中的證件識(shí)別器。
  本文針對(duì)特定格式的類身份證性質(zhì)的證件,通過(guò)對(duì)圖像源的預(yù)處理,給予特定樣本的訓(xùn)練,實(shí)現(xiàn)一種基于 Tesseract-ocr的包含不同字體漢字?jǐn)?shù)字的證件格式化OCR識(shí)別系統(tǒng)。Tesseract是一個(gè)開(kāi)源的OCR引擎,支持漢字等等絕大多數(shù)文字的識(shí)別,并且提供了一系列

4、訓(xùn)練的方式,可以自行訓(xùn)練出需要的訓(xùn)練集。針對(duì)不同的場(chǎng)合進(jìn)行優(yōu)化。也支持大量的參數(shù)調(diào)優(yōu),例如行距,字距等等信息。
  在本文的實(shí)驗(yàn)中通過(guò)一些技術(shù),使得TesseractOCR的識(shí)別效率以及識(shí)別的精確度大幅提升,分析的過(guò)程大致是通過(guò)證件的固有格式進(jìn)行區(qū)域的劃分而在對(duì)不同區(qū)域的識(shí)別上采用不同的參數(shù)以及不同的訓(xùn)練集。例如對(duì)性別的識(shí)別,所采用的訓(xùn)練集在訓(xùn)練時(shí)只訓(xùn)練了兩個(gè)字男和女,這樣的訓(xùn)練結(jié)果雖然帶有一些局限性,但是應(yīng)用于大多數(shù)的場(chǎng)合都是能

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論