機(jī)器翻譯測(cè)試大綱_第1頁(yè)
已閱讀1頁(yè),還剩4頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、2004年度機(jī)器翻譯評(píng)測(cè)大綱一、評(píng)測(cè)對(duì)象本次評(píng)測(cè)的對(duì)象包括:漢-英、英-漢、漢-日、日-漢、漢-法、法-漢、漢法機(jī)器翻譯系統(tǒng)中的核心技術(shù)。二、評(píng)測(cè)內(nèi)容本次評(píng)測(cè)組織兩種語(yǔ)料的評(píng)測(cè),一種是篇章語(yǔ)料,一種是對(duì)話語(yǔ)料。領(lǐng)域是通用領(lǐng)域和面向奧運(yùn)的相關(guān)領(lǐng)域,包括體育賽事、天氣預(yù)報(bào)、交通住宿、旅游餐飲等。本次評(píng)測(cè)的評(píng)測(cè)指標(biāo)包括譯文質(zhì)量和翻譯速度。三、評(píng)測(cè)方法1.評(píng)測(cè)方式本次評(píng)測(cè)為現(xiàn)場(chǎng)評(píng)測(cè)。結(jié)果評(píng)估采用的是以人工評(píng)估為主、自動(dòng)評(píng)估為輔方式。人工評(píng)估采用

2、可理解率指標(biāo)。評(píng)估方式是:由評(píng)測(cè)組織單位將提交的評(píng)測(cè)結(jié)果匯總在一起,然后用計(jì)算機(jī)隨機(jī)打亂譯文句子的排列順序。再將所有譯文句子提交給多位專家進(jìn)行可理解率的人工評(píng)測(cè)評(píng)估。將專家評(píng)測(cè)的結(jié)果匯總,用計(jì)算機(jī)還原成原來(lái)的排列順序,計(jì)算出總得分的可理解率。自動(dòng)評(píng)測(cè)采用基于n元語(yǔ)法的BLEU和NIST方法?!?.評(píng)測(cè)步驟(1)在評(píng)測(cè)單位統(tǒng)一提供的評(píng)測(cè)環(huán)境上安裝被測(cè)系統(tǒng)。系統(tǒng)應(yīng)安裝在指定的目錄中。(2)評(píng)測(cè)單位給出評(píng)測(cè)數(shù)據(jù)。評(píng)測(cè)數(shù)據(jù)存放在指定目錄中。給

3、出評(píng)測(cè)數(shù)據(jù)以后被測(cè)單位不得再更改系統(tǒng)參數(shù)。(3)被測(cè)單位運(yùn)行系統(tǒng),提交評(píng)測(cè)結(jié)果。被測(cè)單位應(yīng)指導(dǎo)評(píng)測(cè)人員學(xué)會(huì)操作方法,所有操作由評(píng)測(cè)人員進(jìn)行,系統(tǒng)運(yùn)行時(shí)各單位人員應(yīng)離場(chǎng)。系統(tǒng)的運(yùn)行應(yīng)該是批處理方式的,系統(tǒng)讀入一個(gè)腳本文件(格式后面說(shuō)明),腳本中存放輸入文件名和對(duì)應(yīng)的輸出文件名。(4)評(píng)測(cè)單位事后進(jìn)行人工評(píng)估。(5)公布評(píng)測(cè)結(jié)果。下面以漢英機(jī)器翻譯為例,說(shuō)明腳本文件、源語(yǔ)言文件和目標(biāo)語(yǔ)言文件格式。(1)腳本文件格式:腳本文件是文本文件,由若

4、干行組成。每行代表一個(gè)待翻譯的源語(yǔ)言文件。每行分為3個(gè)部分,各個(gè)部分以空格分開(kāi),第一部分為序號(hào),第二部分為源語(yǔ)言文件名,第三部分為目標(biāo)語(yǔ)言文件名。系統(tǒng)的翻譯應(yīng)按順序進(jìn)行,不得更改輸出文件名。給出的文件名都是相對(duì)于腳本文件所在目錄的。1d:sourcesrc1.txxmltd:resultdst1.xmltxt2d:sourcesrc2.xmltxtd:resultdst2.txxmlt3…(2)源語(yǔ)言文件格式:源文件采用xml格式。每個(gè)

5、源語(yǔ)言文件包含一個(gè)元素(由和括起來(lái)的部分),其中元素后面的屬性說(shuō)明文檔相關(guān)信息。docid給出文檔名稱,lang給出文檔的源語(yǔ)言,屬性值用雙引號(hào)引起。語(yǔ)言代碼中,英語(yǔ)用雍“en”表示,漢語(yǔ)用“zh”表示,日語(yǔ)用“ja”表示,法語(yǔ)用“fr”表示。每個(gè)段元素由若干個(gè)元素(由和括起來(lái)的部分)組成,輸出中應(yīng)保持相應(yīng)結(jié)構(gòu)。每個(gè)元素由若干個(gè)元素(由和括起來(lái)的部分)組成,其中后面元素的屬性給出句子的id值,id的值是正整數(shù)。每個(gè)元素的id各不相同,但

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論