版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、在漢字信息處理領(lǐng)域,現(xiàn)有的各種漢字字形形式化描述方法主要以文字研究和漢語教學(xué)研究中描寫漢字形體結(jié)構(gòu)的結(jié)構(gòu)分析法為基礎(chǔ),采用人認(rèn)知的結(jié)構(gòu)類型、部件、筆畫等構(gòu)形單位對(duì)漢字字形進(jìn)行分層描述。這些方法在字形拆分規(guī)則、結(jié)構(gòu)類型劃分、描述基元選取等方面存在著歧義和描述缺失,無法滿足統(tǒng)一描述各種漢字(包括錯(cuò)字、古籍異體字、民俗拼合字)字形的需要,也無法支持字形自動(dòng)比對(duì)計(jì)算處理,不能滿足以字形比對(duì)計(jì)算分析為基礎(chǔ)的各種應(yīng)用需要,如教學(xué)研究中錯(cuò)字描述及偏誤
2、定量分析、古籍字形描述及比對(duì)分析、數(shù)字圖書中生僻字形檢索等。 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的漢字識(shí)別模型,對(duì)事先無法收集樣本的錯(cuò)字、異體字、拼合字等特殊漢字,由于沒有訓(xùn)練樣本可學(xué)習(xí),無法支持這類漢字的分類計(jì)算。對(duì)于可收集訓(xùn)練樣本的一般漢字,識(shí)別模型中采用的字形統(tǒng)計(jì)特征難以邏輯解析來與人認(rèn)知的字形結(jié)構(gòu)類型、部件、筆畫建立對(duì)應(yīng)關(guān)系,是一種“黑盒”字形描述模型,無法支持面向人的各種字形比對(duì)分析應(yīng)用需要。 上述問題歸結(jié)為漢字缺少統(tǒng)一有效的字
3、形形式化描述和字形比對(duì)計(jì)算方法。本文工作圍繞這一核心問題展開,面向字形比對(duì)分析應(yīng)用建立了一種漢字字形描述方法及一組相關(guān)的字形比對(duì)算法和實(shí)用工具。主要?jiǎng)?chuàng)新性工作包括: 1)提出一種筆段網(wǎng)格漢字字形形式化描述方法,用預(yù)先定義好長(zhǎng)度、方向的直線段——筆段作為描述字形的基元,基元顆粒度適當(dāng)、規(guī)范、無歧義,能統(tǒng)一描述一切可能今文字(包括錯(cuò)字、異體字、拼合字)字形骨架的異同。論證實(shí)驗(yàn)表明,這種方法與相同基元量點(diǎn)陣字形相比,描述同一漢字所需的
4、有效基元更少,字形比對(duì)計(jì)算效率更高;描述不同漢字的字形間區(qū)分度大,有利于提高字形比對(duì)計(jì)算的準(zhǔn)確性和可靠性,具有較高的性能代價(jià)比。 2)基于筆段網(wǎng)格字形描述方法,本文進(jìn)一步提出一組字形比對(duì)算法。其中,筆段上下文字形比對(duì)算法,以筆段為比對(duì)單位,在GB2312字符集漢字和部分錯(cuò)字、異體字上的測(cè)試實(shí)驗(yàn)表明,算法無需進(jìn)行訓(xùn)練就能比對(duì)字形相似性,字形相似性比對(duì)結(jié)果受漢字結(jié)構(gòu)類型、筆畫劃分影響小,在輸入字形和比對(duì)字形網(wǎng)格大小一致時(shí)比對(duì)準(zhǔn)確率可
5、達(dá)100%;基于筆段組合的字形比對(duì)算法,在筆段網(wǎng)格字形描述基礎(chǔ)上,能自動(dòng)提取簡(jiǎn)單筆畫、復(fù)合筆畫,既能按簡(jiǎn)單筆畫為單位進(jìn)行字形比對(duì),也能按復(fù)合筆畫、簡(jiǎn)單筆畫自適應(yīng)進(jìn)行字形比對(duì)。在同樣測(cè)試漢字集上實(shí)驗(yàn)表明,基于簡(jiǎn)單筆畫和復(fù)合筆畫的字形比對(duì)算法無需訓(xùn)練就能進(jìn)行字形相似度比對(duì)計(jì)算,比對(duì)結(jié)果對(duì)輸入字形整體大小變化、斜筆畫不同變形的敏感性降低,對(duì)依照約束描畫的結(jié)構(gòu)規(guī)范字形,比對(duì)準(zhǔn)確率很高,可達(dá)到100%;比對(duì)單位大,比對(duì)效率高,可以適應(yīng)大規(guī)模漢字字
6、形的比對(duì)、查找;比對(duì)單位容易與人認(rèn)知的構(gòu)字單位建立對(duì)應(yīng)關(guān)系,是一種“白盒”字形相似度比對(duì)計(jì)算方法,既適用整體字形比對(duì),也適用局部字形比對(duì),對(duì)結(jié)構(gòu)比例失調(diào)較大的不規(guī)范字形能發(fā)現(xiàn)與結(jié)構(gòu)規(guī)范字形的差異性,適合面向字形分析的應(yīng)用需要。 此外,建立了基于筆畫關(guān)系矩陣的漢字結(jié)構(gòu)關(guān)系描述和計(jì)算方法,可用于支持漢字結(jié)構(gòu)類型的自動(dòng)判別。 3)由于漢字部件在漢字形體結(jié)構(gòu)研究中的重要性,本文提出了在筆段網(wǎng)格描述的簡(jiǎn)單筆畫上,附加組合關(guān)系標(biāo)注的
7、部件描述方法及部件自動(dòng)發(fā)現(xiàn)算法,實(shí)驗(yàn)表明,該算法能很準(zhǔn)確發(fā)現(xiàn)包含特定部件的漢字,而不受部件在字形中位置和大小的影響。 4)本文還改進(jìn)了《漢字信息字典》的漢字結(jié)構(gòu)描述體系,提出了基于結(jié)構(gòu)描述的字形相似度比對(duì)算法,實(shí)驗(yàn)表明,該法找到的相似字結(jié)構(gòu)類型一致性好,與人認(rèn)知的相似字吻合度較高(96%以上),適合結(jié)構(gòu)類型劃分無歧義漢字的相似性計(jì)算。 5)本文最后設(shè)計(jì)實(shí)現(xiàn)了一個(gè)實(shí)用軟件系統(tǒng)——漢字字形描述和自動(dòng)比對(duì)分析工具,采用大眾化手
8、寫描畫方法來建立筆段網(wǎng)格字形描述,可以輸入各種可以想見的漢字,包括錯(cuò)字、異體字和拼合字及其它相關(guān)信息,能自動(dòng)將筆段網(wǎng)格字形轉(zhuǎn)換成對(duì)應(yīng)TrueType字模,與標(biāo)準(zhǔn)字符集內(nèi)漢字一樣被處理。對(duì)筆段網(wǎng)格字形可以自動(dòng)進(jìn)行整字、局部的字形比對(duì),找出按相似度大小排序的相似字。采用這一工具完成了GBK字符集20902個(gè)漢字及北京語言大學(xué)留學(xué)生錯(cuò)字的描述,字形庫應(yīng)用于漢字教學(xué)錯(cuò)字偏誤分析。 這些工作有益于漢字字形描述的標(biāo)準(zhǔn)化,在基于漢字字形計(jì)算的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 漢字字形描述技術(shù)研究.pdf
- 俗字字形描述方法研究.pdf
- 基于形式化描述的構(gòu)件庫應(yīng)用研究.pdf
- 筆段網(wǎng)格漢字字形筆畫曲線美化及應(yīng)用研究.pdf
- 基于COM的漢字字形描述工具軟件的研究.pdf
- UML順序圖的形式化描述方法研究.pdf
- 基于RSL的協(xié)議形式化描述方法研究.pdf
- 安全協(xié)議的形式化設(shè)計(jì)方法及應(yīng)用研究.pdf
- 基于網(wǎng)格應(yīng)用的高層形式化描述.pdf
- 應(yīng)用系統(tǒng)的形式化描述研究與實(shí)現(xiàn).pdf
- 中日漢字字形比較研究.pdf
- 突發(fā)事件應(yīng)急預(yù)案形式化描述方法研究.pdf
- 數(shù)據(jù)驅(qū)動(dòng)的漢字字形分析與優(yōu)化方法研究.pdf
- 圖像結(jié)構(gòu)的形式化描述.pdf
- 協(xié)議形式化技術(shù)的應(yīng)用研究.pdf
- UML用例模型的B形式化描述方法研究.pdf
- 形式化方法在CSTA系統(tǒng)測(cè)試中的應(yīng)用研究.pdf
- B語言與方法在算法形式化中的應(yīng)用研究.pdf
- 漢字字形解體及其ERP證據(jù)的研究.pdf
- 基于形式化方法的SIP研究與應(yīng)用.pdf
評(píng)論
0/150
提交評(píng)論