西里爾和傳統(tǒng)蒙古文的形態(tài)和轉(zhuǎn)換系統(tǒng)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩153頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、蒙古族以前使用過(guò)若干個(gè)文字,但是目前主要使用傳統(tǒng)蒙古文、西里爾蒙古文和托忒文。
  本文旨在研究傳統(tǒng)蒙古文和西里爾蒙古文的信息化技術(shù),該信息化技術(shù)一是指研究傳統(tǒng)蒙古文和西里爾蒙古文之間的文字轉(zhuǎn)化,二是研究傳統(tǒng)蒙古文和西里爾蒙古文的形態(tài)即詞法。本文緒論中詳細(xì)介紹了上述研究工作的意義、目的和目標(biāo)。
  將計(jì)算機(jī)技術(shù)與蒙古學(xué)研究相結(jié)合已經(jīng)成為研究蒙古文計(jì)算語(yǔ)言學(xué)的必然趨勢(shì)。盡管在蒙古國(guó)內(nèi)已有相關(guān)公司及個(gè)人在此領(lǐng)域從事相關(guān)研究工作并

2、研發(fā)了一些相關(guān)的應(yīng)用程序,但上述應(yīng)用程序的研發(fā)水平尚不能與發(fā)達(dá)國(guó)家的相關(guān)研究水平相媲美。
  鑒于此,本人致力于研究西里爾蒙古文和傳統(tǒng)蒙古文的信息化技術(shù)。
  在這項(xiàng)工作中,我們?cè)噲D從形態(tài)分析西里爾蒙古文和傳統(tǒng)蒙古文,并利用蒙古文構(gòu)詞規(guī)則研究了西里爾蒙古文和傳統(tǒng)蒙古文的相互轉(zhuǎn)換問(wèn)題。這個(gè)過(guò)程包含以下兩個(gè)步驟:首先,從形態(tài)分析西里爾蒙古文或傳統(tǒng)蒙古文語(yǔ)義,找出詞干和后綴;然后,將它們轉(zhuǎn)換成對(duì)應(yīng)的傳統(tǒng)蒙古文或西里爾蒙古文詞干和后

3、綴,并利用構(gòu)詞規(guī)則生成對(duì)應(yīng)的傳統(tǒng)蒙古文或西里爾蒙古文。本文完成的主要研究工作如下:
  1.本文研究了西里爾蒙古文和傳統(tǒng)蒙古文的相關(guān)特點(diǎn),從而試圖將二級(jí)形態(tài)的模型(Two Level Morphology Model)應(yīng)用在蒙古文當(dāng)中。從計(jì)算語(yǔ)言學(xué)角度考慮,西里爾蒙古文和傳統(tǒng)蒙古文有著很多相似之處,也有一些不同之處。目前,西里爾蒙古文的書寫規(guī)則有66大類。傳統(tǒng)蒙古文確只有3項(xiàng)書寫規(guī)則,即元音和諧規(guī)則、輔音規(guī)則、連接音規(guī)則。蒙古文是

4、粘著語(yǔ),是詞干加后綴的形式生成新詞的。在詞干和后綴綴接方面,西里爾蒙古文和傳統(tǒng)蒙古文也有不同之處,這是因?yàn)闀鴮懸?guī)則不同而導(dǎo)致。根據(jù)上述情況,本人研究了名詞和動(dòng)詞的生成和解析模型,同時(shí)研究出詞干加構(gòu)形后綴的規(guī)則,并找出了詞干加多個(gè)構(gòu)形后綴的所有可能。
  2.完成上述工作后建立對(duì)應(yīng)資源庫(kù)的工作顯得十分緊迫。資源庫(kù)是繼續(xù)開(kāi)展西里爾蒙古文和傳統(tǒng)蒙古文相互轉(zhuǎn)換工作的基礎(chǔ)。該資源庫(kù)包括詞干資源庫(kù)、形態(tài)資源庫(kù)和附加資源庫(kù)。蒙古文詞干后綴加構(gòu)形

5、后綴后可以生成大規(guī)模的蒙古文單詞,所以本人選用詞干作為資源庫(kù)的基本單元,主要優(yōu)點(diǎn)是:資源庫(kù)的數(shù)據(jù)不會(huì)太大;加快應(yīng)用程序的運(yùn)算速度;可以確定詞匯生成規(guī)則,進(jìn)而掌握生成某種詞匯的所有可能。詞干資源庫(kù)包含3個(gè)子庫(kù):西里爾蒙古文和傳統(tǒng)蒙古文對(duì)應(yīng)詞干庫(kù),并包含單詞解釋(包含72000詞條);帶有詞性標(biāo)注的西里爾蒙古文和傳統(tǒng)蒙古文對(duì)應(yīng)詞干庫(kù)(包含61000詞條);由詞干編碼,詞匯生成、詞匯解析編碼組成的資源庫(kù)(48000條)。形態(tài)資源庫(kù)包含2個(gè)子庫(kù)

6、:西里爾蒙古文和傳統(tǒng)蒙古文對(duì)應(yīng)構(gòu)形后綴庫(kù)(包含86詞條);多個(gè)構(gòu)形后綴綴接條件庫(kù)(包含876詞條)。附件資源庫(kù)包含2個(gè)子庫(kù):專有名詞庫(kù)(包含9135條);縮略語(yǔ)庫(kù)(包含1100條)。
  3.根據(jù)二級(jí)形態(tài)的模型及“有窮自動(dòng)機(jī)”制作出西里爾蒙古文和傳統(tǒng)蒙古文書寫規(guī)則模型。根據(jù)該模型對(duì)單詞的構(gòu)成進(jìn)行分析,并做了西里爾蒙古文和傳統(tǒng)蒙古文相互轉(zhuǎn)換試驗(yàn)。PC-Kimmo是用于詞形分析的開(kāi)源系統(tǒng),它由兩個(gè)組成部分,即詞匯形式和規(guī)則形式。本文以

7、PC-Kimmo為工具制作完成了西里爾蒙古文和傳統(tǒng)蒙古文相互轉(zhuǎn)換模型。本文將詞匯分成了名詞和動(dòng)詞兩大類,并分別建立了名詞生成模型和動(dòng)詞生成模型。本人將西里爾蒙古文和傳統(tǒng)蒙古文書寫規(guī)則分別制作了模型,并利用該模型及資源庫(kù)建立了西里爾蒙古文和傳統(tǒng)蒙古文相互轉(zhuǎn)換系統(tǒng),并把該系統(tǒng)命名為KIM MON(第一版)。該系統(tǒng)能夠?yàn)橛脩艚馕觥⒀信?、生成詞匯并將最終結(jié)果告知用戶。
  4.最后,利用KIM_MON系統(tǒng)進(jìn)行了蒙古文詞法分析的實(shí)驗(yàn)工作。實(shí)

8、驗(yàn)結(jié)果表明:當(dāng)我們對(duì)西里爾蒙古文和傳統(tǒng)蒙古文的形態(tài)分析時(shí),正確率達(dá)到了97.6%。在正確分析蒙古文形態(tài)基礎(chǔ)上KIM_MON能夠100%的正確的連接單詞。在詞法研究工作的基礎(chǔ)上,我們對(duì)西里爾蒙古文和傳統(tǒng)蒙古文相互轉(zhuǎn)換工作進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:從西里爾蒙古文到傳統(tǒng)蒙古文的轉(zhuǎn)換準(zhǔn)確率達(dá)到了91.3%,從傳統(tǒng)蒙古文到西里爾蒙古文的轉(zhuǎn)換準(zhǔn)確率達(dá)到了89.1%。在西里爾蒙古文的詞同義不同單詞的轉(zhuǎn)換實(shí)驗(yàn)中,準(zhǔn)確率達(dá)到了86.9%。并且通過(guò)實(shí)驗(yàn)得出,

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論