版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、CWMT2008機(jī)器翻譯評(píng)測(cè)總結(jié)報(bào)告,中科院計(jì)算所機(jī)器翻譯評(píng)測(cè)組趙紅梅 謝軍 呂雅娟 劉群2008年11月,提綱,● 概述 ● 參評(píng)單位和參評(píng)系統(tǒng) ● 評(píng)測(cè)語料 ● 評(píng)測(cè)流程 ● 評(píng)測(cè)方法 ● 評(píng)測(cè)結(jié)果 ● 評(píng)測(cè)結(jié)果分析 ● 總結(jié)和展望,概述,● 機(jī)器翻譯核心技術(shù)的評(píng)測(cè)● 目的: 推進(jìn)機(jī)器翻譯技術(shù)的
2、交流和發(fā)展● 15個(gè)參評(píng)單位● 2個(gè)語種方向(漢英、英漢)● 兩種領(lǐng)域(新聞、科技),其中科技翻譯為新增項(xiàng)目● 新增了漢英新聞系統(tǒng)融合項(xiàng)目● 新增了WoodPecker評(píng)測(cè)● 新增了BLEU-SBP參考指標(biāo),參評(píng)單位,,● 廈門大學(xué)人工智能研究所 ● 中國(guó)軟件與技術(shù)服務(wù)股份有限公司● 東北大學(xué)自然語言處理實(shí)驗(yàn)室● 中科院自動(dòng)化研究所系統(tǒng)1● 中科院自動(dòng)化研究所系統(tǒng)
3、2● 北京邁創(chuàng)語通軟件有限公司● 北京賽迪翻譯技術(shù)有限公司● 中國(guó)科學(xué)院軟件研究所● 西安匯申軟件有限公司● 中科院計(jì)算技術(shù)研究所多語言交互技術(shù)研究室● 北京航空航天大學(xué)計(jì)算機(jī)學(xué)院智能信息處理研究所● 微軟亞洲研究院● 北京工業(yè)大學(xué)● 哈爾濱工業(yè)大學(xué)機(jī)器智能與翻譯研究室● SYSTRAN Software, Inc,參評(píng)單位和系統(tǒng)數(shù)量,,評(píng)測(cè)語料,機(jī)器翻語譯料訓(xùn)練語料: 新聞、科技公共
4、訓(xùn)練語料:868,947句對(duì); 科技獨(dú)有訓(xùn)練語料: 620,985句對(duì) 其中, 萬方數(shù)據(jù):320,985句對(duì) 中信所語料:300,000句對(duì)。6家單位參加了萬方數(shù)據(jù)論文摘要句對(duì)齊語料的校對(duì)測(cè)試語料:新
5、聞?wù)Z料按照分割日期規(guī)定均采自國(guó)內(nèi)外新聞網(wǎng)站;所有測(cè)試集中均混入了3倍的干擾集,真實(shí)測(cè)試集規(guī)模:,參考譯文每句4個(gè)參考譯文4個(gè)以目標(biāo)語言為母語的翻譯者獨(dú)立翻譯新聞的參考譯文由計(jì)算所制作,科技的參考譯文由中信所提供系統(tǒng)融合語料訓(xùn)練語料SSMT2007漢英新聞測(cè)試集、參考集和本次評(píng)測(cè)中10家參評(píng)單位提交的17個(gè)系統(tǒng)在SSMT2007漢英新聞?wù)鎸?shí)測(cè)試語料上的翻譯結(jié)果(共1,002句對(duì))測(cè)試語料以上17個(gè)系統(tǒng)在CW
6、MT2008漢英新聞測(cè)試集上的翻譯結(jié)果。其中,12個(gè)系統(tǒng)提交了n-best結(jié)果,5個(gè)系統(tǒng)提交了1-best結(jié)果。參考譯文同本次評(píng)測(cè)漢英新聞翻譯項(xiàng)目的參考集,評(píng)測(cè)語料,評(píng)測(cè)流程,本次評(píng)測(cè)采用了網(wǎng)上評(píng)測(cè)的方式,流程如下: 8月31日 評(píng)測(cè)組織方發(fā)放各個(gè)項(xiàng)目的訓(xùn)練數(shù)據(jù)10月8日 評(píng)測(cè)組織方發(fā)放新聞翻譯項(xiàng)目的測(cè)試數(shù)據(jù)10月10日 參評(píng)單位提交新聞翻譯項(xiàng)目的測(cè)試運(yùn)行結(jié)果和系統(tǒng)描述10月13日 評(píng)測(cè)組織方發(fā)放
7、英漢科技翻譯項(xiàng)目的測(cè)試數(shù)據(jù)10月15日 各參評(píng)單位提交英漢科技翻譯項(xiàng)目的測(cè)試運(yùn)行結(jié)果和系統(tǒng)描述10月20日 評(píng)測(cè)組織方發(fā)放漢英系統(tǒng)融合項(xiàng)目的測(cè)試數(shù)據(jù)(即機(jī)器翻譯項(xiàng)目參評(píng)單位提交的運(yùn)行結(jié)果的匯總)10月22日 各參評(píng)單位提交漢英系統(tǒng)融合項(xiàng)目的測(cè)試運(yùn)行結(jié)果和系統(tǒng)描述,評(píng)測(cè)方法,格式預(yù)處理:各系統(tǒng)翻譯的結(jié)果首先需要轉(zhuǎn)換為評(píng)測(cè)軟件能夠處理的內(nèi)部格式;此次評(píng)測(cè)的內(nèi)部格式更加接近NIST評(píng)測(cè)格式;部分單位提交的結(jié)果格式不
8、符合要求;解決辦法:下次評(píng)測(cè)提供格式檢測(cè)程序!10月22日收到提交結(jié)果后開始進(jìn)行自動(dòng)評(píng)測(cè),10月28日全部完成。體會(huì):評(píng)測(cè)中最麻煩的問題莫過于格式和編碼統(tǒng)一采用UTF-8編碼,但是:帶編碼(如utf-8)的文件在Windows下復(fù)制到剪貼板上時(shí)(包括使用寫字版和UltraEdit),很多符號(hào)如引號(hào)和連字符等都會(huì)被轉(zhuǎn)換成默認(rèn)的編碼方式(如ANSI編碼),從而出現(xiàn)亂碼。不能采用utf-8、無BOM編碼:因其不識(shí)別英鎊符號(hào)£,評(píng)測(cè)
9、方法,評(píng)測(cè)指標(biāo): 本次評(píng)測(cè)采用多種自動(dòng)評(píng)價(jià)指標(biāo),包括:BLEU、 NIST、GTM、mWER、mPER、ICT參考指標(biāo):BLEU-SBP:采用修改bp的BLEUWoodPecker:提供基于檢測(cè)點(diǎn)的評(píng)測(cè)結(jié)果以上指標(biāo)均為:大小寫敏感的中文的評(píng)測(cè)是基于字的,而不是基于詞的,評(píng)測(cè)方法: BLEU-SBP,我們發(fā)現(xiàn)了BLEU本身存在的問題: 將測(cè)試結(jié)果中2%的句子縮短為只有1-2個(gè)單詞,BLEU
10、值不變! 用BLEU進(jìn)行A、B兩個(gè)結(jié)果的顯著性差異的符號(hào)檢驗(yàn),發(fā)現(xiàn):,,評(píng)測(cè)方法: BLEU-SBP,解決:采用BLEU-SBP指標(biāo) (David Chiang et al., 2008),BLEU vs. BLEU-SBP,兩者的最大區(qū)別在于bp ( brevity penalty)部分請(qǐng)參考Decomposability of Translation Metrics for Improved Evaluatio
11、n and Efficient Algorithms, David Chiang, et.al, EMNLP2008,,,,,評(píng)測(cè)方法: BLEU-SBP,,漢英新聞12個(gè)參評(píng)主系統(tǒng)BLEU4與BLEU-SBP結(jié)果對(duì)比,,,,評(píng)測(cè)方法,符號(hào)檢驗(yàn):在BLEU-SBP的基礎(chǔ)上,針對(duì)各主系統(tǒng)的翻譯結(jié)果,進(jìn)行了結(jié)果之間差異的顯著性檢驗(yàn)---符號(hào)檢驗(yàn) (Collins et al.,2005)做法:分別以每個(gè)主系統(tǒng)為基準(zhǔn)系統(tǒng),測(cè)試了
12、所有其它主系統(tǒng)與基準(zhǔn)系統(tǒng)結(jié)果差異的顯著性程度,以此構(gòu)造了所有主系統(tǒng)翻譯結(jié)果的差異顯著性矩陣。,,評(píng)測(cè)結(jié)果:漢英新聞主系統(tǒng),漢英新聞主系統(tǒng)BLEU結(jié)果,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,漢 英 新 聞 主 系 統(tǒng),0.0968,0.1539,0.1686,0.1773,0.1838,0.2033,0.2051,0.2188,0.2264,0.2275,0.2390,0.2809,0.0
13、5,0.10,0.15,0.20,0.25,0.30,12,11,10,9,8,7,6,5,4,3,2,1,BLEU-4,,,,,,,,,評(píng)測(cè)結(jié)果:英漢新聞主系統(tǒng),英漢新聞主系統(tǒng)BLEU結(jié)果,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,英 漢 新 聞 主 系 統(tǒng),0.2369,0.2408,0.2532,0.2622,0.1964,0.2129,0.2413,0.2611,0.297,0.3157
14、,0.3263,0.15,0.20,0.25,0.30,0.35,9,8,6,4,11,10,7,5,3,2,1,BLEU-5,,,不,,受,,限,受,,,限,,,評(píng)測(cè)結(jié)果:英漢科技主系統(tǒng),英漢科技主系統(tǒng)BLEU結(jié)果,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,英 漢 科 技 主 系 統(tǒng),0.3528,0.3743,0.4026,0.4618,0.2173,0.2859,0.3651,0.4718,0
15、.4879,0.20,0.25,0.30,0.35,0.40,0.45,0.50,7,5,4,3,9,8,6,2,1,BLEU-5,,不,,受,,限,受,,,限,,評(píng)測(cè)結(jié)果:漢英新聞系統(tǒng)融合主系統(tǒng),漢英新聞系統(tǒng)融合主系統(tǒng)BLEU結(jié)果,,,以規(guī)則方法為主以統(tǒng)計(jì)方法為主,評(píng)測(cè)結(jié)果分析:各主系統(tǒng)所用方法,,,評(píng)測(cè)結(jié)果分析,兩種方法在各項(xiàng)目中的平均BLEU對(duì)比表明:統(tǒng)計(jì)方法在英漢科技的BLEU得分上優(yōu)勢(shì)明顯,這一點(diǎn)也可以從隨后的WoodPec
16、ker評(píng)測(cè)結(jié)果上看出來。,結(jié)論:科技翻譯很適合于使用統(tǒng)計(jì)機(jī)器翻譯方法,系統(tǒng)融合的最好結(jié)果僅比單系統(tǒng)的最好結(jié)果BLEU值高出1.35個(gè)百分點(diǎn),比預(yù)想的要差得多原因還沒有弄明白,評(píng)測(cè)結(jié)果分析,MSRA在漢英新聞不受限項(xiàng)目上優(yōu)勢(shì)明顯與去年SSMT2007評(píng)測(cè)相比,HIT、NEU等單位進(jìn)步非常大基于規(guī)則的系統(tǒng)表現(xiàn)比想象的好,評(píng)測(cè)結(jié)果分析,評(píng)測(cè)方法: WoodPecker,WoodPecker是微軟亞洲研究院開發(fā)的基于檢測(cè)點(diǎn)的評(píng)測(cè)工具基于
17、語言學(xué)分類的檢測(cè)工具檢測(cè)點(diǎn)自動(dòng)抽取可以提供詞級(jí)、短語級(jí)以及句級(jí)的評(píng)價(jià)指標(biāo)下載地址:http://research.microsoft.com/research/downloads/details/ad240799-a9a7-4a14-a556-6a7c7919b4a/details.aspx,Linguistic Taxonomy,WoodPecker: 系統(tǒng)流程,WoodPecker: 相關(guān)工具,數(shù)據(jù)預(yù)處理中文全/半角轉(zhuǎn)換:
18、 A3區(qū)全半角轉(zhuǎn)換 A2B中文分詞: ICTCLAS英文首字母大小寫轉(zhuǎn)化 Truecase英文Tokenization詞對(duì)齊GIZA++ParsingBerkeley ParserStanford Parser,檢測(cè)點(diǎn)提取和選擇,檢測(cè)點(diǎn)的提取和評(píng)測(cè):參考譯文的預(yù)處理方法和對(duì)參評(píng)系統(tǒng)輸出的預(yù)處理方法保持一致。基于WoodPecker語言學(xué)檢測(cè)點(diǎn)分類體系,從評(píng)測(cè)語料中總共提取出了52種漢英檢測(cè)點(diǎn),81種英漢檢測(cè)點(diǎn)。檢
19、測(cè)點(diǎn)的選擇:根據(jù)出現(xiàn)頻次對(duì)檢測(cè)點(diǎn)類別進(jìn)行了篩選:源語言檢測(cè)點(diǎn):出現(xiàn)頻次﹥10目標(biāo)語言檢測(cè)點(diǎn):出現(xiàn)頻次﹥40 (注: 獨(dú)立計(jì)算每個(gè)參考譯文中檢測(cè)點(diǎn)的頻次)說明: (1)漢英介詞同時(shí)計(jì)入功能詞類別和內(nèi)容詞類別.(2)英漢歧義詞沒有考慮最終選取的檢測(cè)點(diǎn)類別數(shù)目:漢英檢測(cè)點(diǎn): 46英漢檢測(cè)點(diǎn): 58,評(píng)測(cè)結(jié)果:WoodPecker,漢英新聞主系統(tǒng)英漢新聞主系統(tǒng)英漢科技主系統(tǒng)漢英新聞系統(tǒng)融合,WoodPecker 與 BLEU
20、 相關(guān)性分析 (英漢),,,WoodPecker 與 BLEU 相關(guān)性分析 (漢英),WoodPecker 與 BLEU 相關(guān)性分析 --相關(guān)性最好的5類檢測(cè)點(diǎn),WoodPecker 與 BLEU 相關(guān)性分析 --相關(guān)性最差的5類檢測(cè)點(diǎn),評(píng)測(cè)結(jié)果分析,,在漢英新聞?lì)I(lǐng)域,在源語言的“搭配”、“介詞”兩個(gè)檢測(cè)點(diǎn)上,統(tǒng)計(jì)翻譯系統(tǒng)
21、顯示出一定優(yōu)勢(shì):,評(píng)測(cè)結(jié)果分析,在漢英新聞?lì)I(lǐng)域,“成語”測(cè)試點(diǎn)上,基于規(guī)則的系統(tǒng)則表現(xiàn)更好:,評(píng)測(cè)結(jié)果分析,在英漢新聞?lì)I(lǐng)域, “介詞”和“詞典介詞”兩個(gè)檢測(cè)點(diǎn),基于規(guī)則的系統(tǒng)占優(yōu):,在英漢新聞?lì)I(lǐng)域,源語言的“數(shù)詞短語”測(cè)試點(diǎn)上,基于規(guī)則的翻譯系統(tǒng)結(jié)果較好:,評(píng)測(cè)結(jié)果分析,評(píng)測(cè)結(jié)果分析,各項(xiàng)目WoodPecker評(píng)測(cè)中總分前五名的結(jié)果顯示:在英漢新聞?lì)I(lǐng)域,基于規(guī)則的系統(tǒng)在這種基于語言學(xué)分類的檢測(cè)點(diǎn)評(píng)測(cè)中顯示了一定的優(yōu)勢(shì):,總結(jié)和展望,總結(jié)
22、:從準(zhǔn)備到結(jié)束歷時(shí)半年,期間細(xì)節(jié)之繁瑣非一個(gè)“累”字了得!所幸評(píng)測(cè)中的小 “閃失” 都得到了糾正,更有幸都得到了大家的諒解!?改進(jìn)之處:更加詳盡的評(píng)測(cè)大綱增加了科技翻譯評(píng)測(cè)增加了系統(tǒng)融合評(píng)測(cè)引入BLEU-SBP,并進(jìn)行了顯著性檢驗(yàn)引入WoodPecker!展望:交流、溝通、進(jìn)步!,下次評(píng)測(cè)怎么做?項(xiàng)目設(shè)置詞語對(duì)齊?系統(tǒng)融合?科技翻譯?其他?訓(xùn)練語料評(píng)測(cè)指標(biāo)組織方式,總結(jié)和展望,致謝,感
23、謝為此次評(píng)測(cè)提供訓(xùn)練數(shù)據(jù)的單位,他們是(按拼音順序排列):北京大學(xué)計(jì)算語言學(xué)研究所哈爾濱工業(yè)大學(xué)信息檢索實(shí)驗(yàn)室(無償)哈爾濱工業(yè)大學(xué)機(jī)器智能與翻譯研究室萬方數(shù)據(jù)公司廈門大學(xué)中國(guó)科學(xué)技術(shù)信息研究所(無償)中國(guó)科學(xué)院計(jì)算技術(shù)研究所中國(guó)科學(xué)院自動(dòng)化研究所感謝為此次評(píng)測(cè)中提供測(cè)試數(shù)據(jù)的單位,他們是(按拼音順序排列):中國(guó)科學(xué)技術(shù)信息研究所(無償)特別感謝!中國(guó)科學(xué)院計(jì)算技術(shù)研究所本次WoodPecker評(píng)測(cè)的全過程中
24、,得到了微軟亞洲研究院自然語言計(jì)算組的張冬冬、李沐的鼎立協(xié)助,在此深表感謝!感謝本次評(píng)測(cè)組織工作的主要承擔(dān)者付出的艱辛勞動(dòng):趙紅梅、謝軍!,參考文獻(xiàn),David Chiang, Steve DeNeefe, Yee Seng Chan and Hwee Tou Ng. Decomposability of Translation Metrics for Improved Evaluation and Efficient Al
25、gorithms. In Proceedings of the 2008 Conference on Empirical Methods in Natural Language Processing, pages 610-619, Honolulu, October 2008. ©2008 Association for Computational LinguisticsMing Zhou, Bo Wang, Shujie
26、 Liu, Mu Li, Dongdong Zhang, Tiejun Zhao. Diagnostic Evaluation of Machine Translation Systems Using Automatically Constructed Linguistic Check-Points. Coling 2008.Natural Language Computing Group, Microsoft Research A
27、sia. Manual for WoodPecker: A Linguistic Evaluation Platform for MT Systems http://research.microsoft.com/research/downloads/details/ad240799-a9a7-4a14-a556-d6a7c7919b4a/details.aspxMichael Collins, Philipp Koehn
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 第九屆全國(guó)機(jī)器翻譯研討會(huì)cwmt2013評(píng)測(cè)大綱
- 機(jī)器翻譯系統(tǒng)的自動(dòng)評(píng)測(cè)研究.pdf
- 英漢機(jī)器翻譯系統(tǒng)自動(dòng)評(píng)測(cè)方法的研究與實(shí)現(xiàn).pdf
- 統(tǒng)計(jì)機(jī)器翻譯綜述
- 統(tǒng)計(jì)機(jī)器翻譯綜述
- 機(jī)器翻譯測(cè)試大綱
- 機(jī)器翻譯常見錯(cuò)誤類型總結(jié)_x0002_
- 機(jī)器翻譯句法錯(cuò)誤分析
- 融合統(tǒng)計(jì)機(jī)器翻譯特征的蒙漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù).pdf
- 個(gè)性化信息推薦服務(wù)和機(jī)器翻譯自動(dòng)評(píng)測(cè)關(guān)鍵技術(shù)的研究.pdf
- 融合統(tǒng)計(jì)機(jī)器翻譯特征的蒙漢神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯技術(shù)_2092.pdf
- 動(dòng)賓結(jié)構(gòu)漢英機(jī)器翻譯研究.pdf
- 面向科技文獻(xiàn)的機(jī)器翻譯.pdf
- 論機(jī)器翻譯的語義分析方法.pdf
- 基于短語模板的機(jī)器翻譯研究.pdf
- 基于實(shí)例的英漢機(jī)器翻譯系統(tǒng).pdf
- 本體驅(qū)動(dòng)的漢英機(jī)器翻譯研究.pdf
- 機(jī)器翻譯自動(dòng)評(píng)價(jià)計(jì)算粒度研究.pdf
- 醫(yī)學(xué)測(cè)試1-譯文-atman機(jī)器翻譯
- 統(tǒng)計(jì)機(jī)器翻譯中語料選擇方法研究
評(píng)論
0/150
提交評(píng)論