英文科技文檔中數(shù)學公式的定位、識別與重建.pdf_第1頁
已閱讀1頁,還剩94頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、隨著計算機存儲能力的不斷提高,越來越多的文檔以圖像格式被輸入到計算機中保存.如何將這些文檔圖像轉(zhuǎn)換為可檢索、可重新編輯的格式已經(jīng)引起了廣泛的關(guān)注.文檔圖像分析技術(shù)正是為了滿足這些要求產(chǎn)生的.光學字符識別是文檔圖像分析的核心技術(shù),可以分為印刷體文本識別和手寫體文本識別兩大類.目前,印刷體文本識別技術(shù)較為成熟,廣泛應用在辦公自動化,數(shù)字圖書館建設等領域.但是,科技文檔中存在大量的數(shù)學公式,這些數(shù)學公式往往包含希臘字母等特殊符號,而且其中的符

2、號之間常存在二維的位置關(guān)系.而目前的OCR產(chǎn)品無法處理含有二維結(jié)構(gòu)的公式子圖像.因此,目前科技文檔中的數(shù)學公式只能通過人工輸入的方法達到重新檢索和利用的目的.為此,本文提出了一種用于識別印刷體文檔圖像中包含的數(shù)學公式的識別系統(tǒng).本文主要包含以下內(nèi)容: 第一章回顧了文檔圖像分析和光學字符識別的歷史,并概述了相關(guān)的技術(shù)以及主流光學字符識別軟件的工作流程.對于新系統(tǒng)結(jié)構(gòu)的描述也在第一章進行.新系統(tǒng)能夠?qū)崿F(xiàn)自動提取文檔圖像中包含的數(shù)學公

3、式,識別其中的符號.利用LL(1)文法對公式結(jié)構(gòu)進行分析后,系統(tǒng)將識別結(jié)果最終存儲成可編輯的L<'A>T<,E>X格式數(shù)學公式. 第二章,定義了適用于文檔圖像分析的局部極大成分(簡稱成分),并給出了相應的標記算法.新算法采用輪廓追蹤技術(shù)檢測和標記源圖像中每個成分的外部輪廓,繼而將成分的內(nèi)部區(qū)域從源圖像的副本中移除,標記和移除操作都在對源圖像的一次掃描中完成.新算法與傳統(tǒng)算法問的效率對比同時在第二章給出. 第三章提出了一種

4、從英文科技文檔圖像中提取數(shù)學公式的新方法.首先利用整幅文檔圖像的統(tǒng)計數(shù)據(jù)計算出用于分類的基準參數(shù),然后利用局部極大成分的水平投影數(shù)據(jù)進行初步的行分割,再利用每行的豎直投影數(shù)據(jù)將每行的符號分成數(shù)個子區(qū)域.對每一個子區(qū)域依據(jù)其性質(zhì)利用基準參數(shù)進行分類,通過對特定類別子區(qū)域的適當合并,最終得到文檔圖像中公式的位置.新方法可以用于處理圖文混排的文檔圖像,能夠降低文檔中的圖片和表格等元素對于公式定位結(jié)果的影響. 第四章介紹了新系統(tǒng)中采用的

5、數(shù)學公式識別及重組算法.新系統(tǒng)利用Zernike距提取字符的特征,由自組織特征映射(SOFM)神經(jīng)網(wǎng)絡和BP神經(jīng)網(wǎng)絡組成多分類器進行符號識別.為了分割圖像中存在的粘連字符,系統(tǒng)引入了一種基于改進后的SOFM神經(jīng)網(wǎng)絡的粘連字符分割算法.基于LL(1)文法的數(shù)學公式重構(gòu)算法在第四章被一并介紹.通過應用LL(1)文法,系統(tǒng)最終將識別結(jié)果保存為L<'A>T<,E>X格式字符串. 最后部分,分析了系統(tǒng)中仍然存在的問題,并對系統(tǒng)未來的擴展方

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論