統(tǒng)計機器翻譯中的一致性解碼方法研究.pdf_第1頁
已閱讀1頁,還剩108頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、近二十年來,機器翻譯(machine translation,MT)研究迅猛發(fā)展。相比于傳統(tǒng)的基于規(guī)則(rule-based)和基于實例(example-based)的機器翻譯方法,統(tǒng)計機器翻譯(statistical machine translation,SMT)在譯文質(zhì)量和系統(tǒng)魯棒性上均展示出巨大優(yōu)勢,并已經(jīng)成為機器翻譯研究領(lǐng)域中的主流方法。給定源語言輸入,機器翻譯的任務(wù)在于生成與該輸入表達意義相同的目標語言輸出。典型的SMT系統(tǒng)

2、在完成上述翻譯任務(wù)的過程中,往往能夠生成多條不同的目標語言翻譯假設(shè)(translation hypotheses)。然而,由于翻譯模型本身的局限性,系統(tǒng)排名最高(1-best)的翻譯假設(shè)通常卻并不是全部翻譯假設(shè)中的最優(yōu)結(jié)果;此外,基于不同翻譯模型SMT系統(tǒng)的大量涌現(xiàn),進一步擴展了相同源語言輸入能夠?qū)?yīng)的目標語言翻譯候選集合大小。在上述背景下,如何有效地利用不同翻譯假設(shè)及其包含的信息來獲取更優(yōu)的翻譯結(jié)果,已經(jīng)成為近年來機器翻譯研究領(lǐng)域中的

3、一個熱點課題。
   本研究將目前已有的研究成果大體分為如下兩類,并提出一個統(tǒng)一的一致性解碼(consensus decoding)框架,將這兩類方法包括其中:⑴翻譯假設(shè)重排序,主要應(yīng)用于單個SMT系統(tǒng)的翻譯假設(shè)空間之上。該類方法通過選取特定的評判準則,對整個翻譯假設(shè)空間中所包含的全部翻譯假設(shè)進行重打分并重新排序,進而選取重排序后排名最高的翻譯假設(shè)作為最終的翻譯結(jié)果;⑵系統(tǒng)融合,主要應(yīng)用于多個SMT系統(tǒng)的翻譯假設(shè)空間之上。根據(jù)其

4、使用翻譯單元的不同,該類方法又可劃分為句子級(sentence-level)、短語級(phrase-level)和詞匯級(Word-level)三種不同的層次。其中,詞匯級系統(tǒng)融合能夠提供的性能提升最為顯著,因此相關(guān)方面的研究成果也最多。
   本文針對已有典型工作的不足,提出四種新型的一致性解碼方法:①基于特征子空間的句子級系統(tǒng)融合給定任意基于對數(shù)-線性(log-linear)模型的(主)SMT系統(tǒng),通過選取該系統(tǒng)特征全集的不

5、同特征子集來構(gòu)造多個(子)SMT系統(tǒng),進而在全部系統(tǒng)的輸出結(jié)果之上使用一種句子級系統(tǒng)融合方法,來選取最終的翻譯結(jié)果。該方法的貢獻在于:提出了一種簡單有效的多SMT系統(tǒng)構(gòu)造方法,極大程度地減少了系統(tǒng)融合工作中多翻譯系統(tǒng)構(gòu)造方面的巨大開銷;②協(xié)作解碼給定多個基于對數(shù)一線性模型的SMT系統(tǒng),通過共享翻譯假設(shè)空間的方式允許不同翻譯系統(tǒng)進行交互,每個翻譯系統(tǒng)通過使用一組基于其他翻譯系統(tǒng)生成的翻譯假設(shè)空間計算得到的n-gram統(tǒng)計量特征,來對自身的

6、(局部和全部)翻譯假設(shè)空間進行重排序。在協(xié)作解碼完成后,還能夠通過系統(tǒng)融合的方法獲取進一步的性能提升。該方法的貢獻在于:在解碼過程中直接發(fā)生作用,能夠在一定程度上避免更優(yōu)的局部翻譯假設(shè)被較早剪枝(pruning)的問題;③基于混合模型的最小貝葉斯風(fēng)險解碼使用混合模型將多個SMT系統(tǒng)的翻譯假設(shè)概率分布整合,利用整合后的概率分布在多個SMT系統(tǒng)合并后的翻譯假設(shè)空間上計算MBR解碼所需的n-gram統(tǒng)計量特征,進而從全部翻譯候選中選取最終的譯

7、文結(jié)果。與傳統(tǒng)的MBR解碼方法相比較,基于混合模型的MBR解碼所能訪問到的翻譯假設(shè)數(shù)目更多、差異性更大,并且基于混合概率分布計算的n-gram統(tǒng)計量也更為準確,因此,該方法能夠獲得的性能提升也更多。該方法的貢獻在于:將最小貝葉斯風(fēng)險解碼的應(yīng)用范圍從單個SMT系統(tǒng)擴展到多個SMT系統(tǒng);④翻譯假設(shè)混合解碼通過利用來自多個SMT系統(tǒng)的局部翻譯假設(shè)來構(gòu)造一個更大的混合假設(shè)空間,并利用一系列基于一致性的統(tǒng)計量特征從該空間中選取最終的翻譯結(jié)果。大規(guī)

8、模數(shù)據(jù)上的機器翻譯評測實驗表明,該方法在翻譯性能上顯著地優(yōu)于翻譯假設(shè)重排序和詞匯級系統(tǒng)融合方法。該方法的貢獻在于:同時繼承了翻譯假設(shè)重排序和系統(tǒng)融合兩類方法的優(yōu)點,不僅能夠使用來自任意SMT系統(tǒng)生成的局部翻譯假設(shè)構(gòu)建更大的翻譯假設(shè)空間,而且能夠產(chǎn)生已有翻譯假設(shè)候選集合之外的新的翻譯結(jié)果。
   本研究在每種方法的對應(yīng)章節(jié)中,均通過大規(guī)模數(shù)據(jù)上的中-英機器翻譯評測實驗,來驗證各個方法的有效性最后,總結(jié)全文,并對未來工作進行展望。本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論