2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩52頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、目前的統(tǒng)計機器翻譯的發(fā)展,由于其對大規(guī)模平行語料庫的依賴,還主要集中在平行語料庫相對容易獲得的英法、英漢等語言之間。由于獲取途徑的限制,即使像英語,漢語,法語這些常用的官方語言間的對照語料,得到的平行語料庫就算是有一定的規(guī)模,也多半都是很不平衡的,主要都是政府性或新聞性的題材,其他專業(yè)領域的平行語料庫則少之又少,至于其他一些國際上不常用的語言間的平行語料庫,即使是這種非平衡的資源也很難獲得,對于目前尚不成熟的中越兩國語言的平行語料,此種

2、問題則更為突出。本文致力于構建一個基于Web的大規(guī)模中越雙語平行語料庫自動獲取系統(tǒng)。取得主要成果有以下幾方面:
   1.提出基于圖片鏈接信息對齊URL無命名規(guī)律的中越雙語平行網(wǎng)頁的算法
   目前主流的中越雙語平行網(wǎng)站的URL命名無規(guī)律性同時又含有大量附圖鏈接并且鏈接所指向的網(wǎng)頁含有豐富的中越雙語平行語料資源這一特性,通過提取以上雙語平行網(wǎng)頁以及目前主流網(wǎng)站的附圖鏈接的網(wǎng)頁的HTML源代碼并對其附圖鏈接的代碼部分進行詳

3、盡的結構比較、分析,發(fā)現(xiàn)了所有網(wǎng)站在附圖鏈接源代碼上的一個統(tǒng)一的固定結構,并成功實現(xiàn)抽取這一固定結構及其中的圖片鏈接信息和對應候選平行網(wǎng)頁URL的算法,從而成功實現(xiàn)利用雙語平行網(wǎng)頁的圖片鏈接信息相同的這一特征來對齊中越雙語候選平行網(wǎng)頁的方法,從而可以找出盡可能多可信的中越候選網(wǎng)頁對。
   2.對基于句子長度、詞匯的對齊特征抽取進行對應中越雙語的適應性改進
   基于中越兩國語言的淵源關系以及在句子長度、詞匯互譯上的相似

4、之處,本文在現(xiàn)有中越雙語平行語料庫的基礎上對中越雙語平行句對的句子長度進行了科學統(tǒng)計,總結出了長度比例、概率分布、拒絕域的重要句子對齊特征;基于現(xiàn)有尚不成熟完善的漢越雙語詞典提出了引入《哈工大信息檢索研究室同義詞詞林擴展版》進行越漢詞典的詞條擴展、合并本來不應被切分開的詞語、互譯詞匯查找的模糊匹配,三種處理策略,顯著提高了中越雙語平行句對的詞匯匹配率,同時,通過對以上處理策略的數(shù)據(jù)收集、統(tǒng)計,為多語種項目日后的漢越詞典的完善、翻譯概率的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論