2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩57頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、碩士學位論文可比語料中雙語多詞術(shù)語互譯對抽取方法研究ResearchonExtractionofBilingualMultiwordTermTranslationPairsfromComparableCorpora學號:21009228指導完成El期:窒Q!墨生壘月2晝旦大連理工大學DalianUniversityofTechnology大連理工大學碩士學位論文摘要雙語術(shù)語互譯對抽取是自然語言處理領(lǐng)域中一個重要的研究課題。作為基礎(chǔ)資源,

2、雙語術(shù)語互譯對被廣泛應(yīng)用于機器翻譯、信息抽取、雙語術(shù)語詞典編撰以及跨語言信息檢索等領(lǐng)域。早期的術(shù)語互譯對抽取工作主要在平行語料上開展,存在語料規(guī)模不足等問題。與通過人工翻譯或者法規(guī)文件等獲得的平行語料庫相比,可比較語料庫具有代價低、來源廣等特點。目前,基于可比較語料的研究越來越多,從可比較語料庫中挖掘詞級別的信息己成為研究的熱點。本文在可比較語料的基礎(chǔ)上進行雙語多詞術(shù)語互譯對的抽取工作。首先從可比較語料庫中分別抽取中文多詞術(shù)語和英文多詞

3、術(shù)語,然后通過計算中英多詞術(shù)語之間多個特征值得到術(shù)語匹配對,最后使用閡值限定法過濾正確的術(shù)語對。其中,在計算術(shù)語匹配對時,本文使用最小化樣本風險算法來調(diào)節(jié)特征權(quán)重。本文設(shè)計和實現(xiàn)了一個多詞術(shù)語互譯對抽取系統(tǒng),其中,中英可比語料庫作為系統(tǒng)的輸入,中英多詞術(shù)語互譯對集合作為系統(tǒng)的輸出。系統(tǒng)主要分為3個模塊:(1)多詞術(shù)語抽取模塊:(2)基于多特征的互譯對相似度計算模塊;(3)多特征融合和過濾模塊。多詞術(shù)語抽取模塊分別從對應(yīng)的單語語料庫中抽取

4、中文多詞術(shù)語和英文多詞術(shù)語?;プg對相似度計算模塊,使用翻譯模型特征、詞頻同現(xiàn)特征、中英匹配特征、英中匹配特征和詞長度特征計算中英多詞術(shù)語之間的匹配度。多特征融合和過濾模塊,使用最小樣本風險算法(minimumsamplerisk,MSR)調(diào)整各個特征的權(quán)重,然后將各個特征值加權(quán)求和,結(jié)果作為互譯對最終的相似度。每個中文多詞術(shù)語和多個英文多詞術(shù)語比較,構(gòu)建多個候選中英多詞術(shù)語互譯對,選擇相似度最高且大于閾值的互譯對作為正確結(jié)果。本文的主要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論