版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著信息時(shí)代的到來(lái)和Internet的發(fā)展,信息處理能力成為信息處理領(lǐng)域的瓶頸問題,不同語(yǔ)種之間大量的信息交流更加大了問題的嚴(yán)重性。不同語(yǔ)言之間的翻譯工作越來(lái)越迫切,并且工作量也越來(lái)越大。瀏覽外文網(wǎng)頁(yè)則對(duì)即時(shí)自動(dòng)翻譯提出了要求。如何利用計(jì)算機(jī)高效率的信息處理能力突破不同語(yǔ)種之間的語(yǔ)言障礙,成為全人類面臨的共同問題。機(jī)器翻譯便是解決這個(gè)問題的有力手段之一。 然而自然語(yǔ)言的歧義性一直是機(jī)器翻譯難以攻克的難關(guān),機(jī)器翻譯的譯文質(zhì)量離人們
2、想要達(dá)到的目標(biāo)尚遠(yuǎn)。傳統(tǒng)的KBMT系統(tǒng)需要龐大而復(fù)雜的規(guī)則庫(kù)支撐。規(guī)則的來(lái)源是專家的知識(shí),獲取和維護(hù)耗時(shí)費(fèi)力,又無(wú)法避免沖突,形成了知識(shí)獲取的瓶頸。 傳統(tǒng)的以單詞為最小處理單位的面向大眾用戶的機(jī)器翻譯在翻譯質(zhì)量遭受批評(píng)的同時(shí),以句子為處理單位的面向?qū)I(yè)翻譯人員的翻譯記憶卻取得了極大的成功。加大機(jī)器翻譯中的翻譯單元的粒度成為人們思考的新方向。 機(jī)器翻譯是應(yīng)先理解了源語(yǔ)言再生成目標(biāo)語(yǔ)言,還是只需盡量多地把源語(yǔ)言的信息傳遞到目
3、標(biāo)語(yǔ)中,也即機(jī)器翻譯是否要進(jìn)行深層分析與理解,一直是一個(gè)存在爭(zhēng)議的問題。 隨著語(yǔ)料庫(kù)語(yǔ)言學(xué)和機(jī)器學(xué)習(xí)的發(fā)展,通過(guò)機(jī)器學(xué)習(xí)從語(yǔ)料庫(kù)中自動(dòng)或半自動(dòng)獲取語(yǔ)言規(guī)則和翻譯規(guī)則成為知識(shí)獲取的新途徑。語(yǔ)料庫(kù)語(yǔ)言學(xué)力圖從大規(guī)模真實(shí)文本中獲取語(yǔ)言知識(shí),以求得對(duì)于自然語(yǔ)言規(guī)律的更為客觀的、準(zhǔn)確的認(rèn)識(shí)。它突破了KBMT中知識(shí)獲取的瓶頸。 EBMT一個(gè)重要的特征在于其取消了KBMT中語(yǔ)言學(xué)規(guī)則的中心地位,強(qiáng)調(diào)使用實(shí)例數(shù)據(jù)和類比推理驅(qū)動(dòng)翻譯過(guò)程。
4、EBMT中匹配的實(shí)例可以是雙語(yǔ)段落對(duì)、句對(duì)、子句對(duì),甚至是更小的片段對(duì)。粒度越大,歧義越小,但完全匹配的可能性也越小。粒度越小,完全匹配的可能性越大,但歧義也越大。 使用機(jī)器學(xué)習(xí)方法來(lái)解決自然語(yǔ)言處理中的問題是當(dāng)前研究的主流,國(guó)內(nèi)外在這方面已做了很多有益的工作,本文的工作也是在這方面作了一些努力和嘗試。所有的工作緊緊圍繞基于機(jī)器學(xué)習(xí)的漢語(yǔ)淺層分析展開,構(gòu)成了一個(gè)完整的體系。淺層分析的結(jié)果是一種語(yǔ)段,粒度介于句對(duì)和語(yǔ)詞對(duì)之間,作為
5、匹配實(shí)例應(yīng)用于EBMT中可以起到消歧作用。在眾多的機(jī)器學(xué)習(xí)方法中,本文主要研究了生成學(xué)習(xí)和判別學(xué)習(xí)兩種框架下具有代表性的條件隨機(jī)場(chǎng)(ConditionalRandomFields)機(jī)器學(xué)習(xí)方法和支持向量機(jī)(SurpportVectorMachines)機(jī)器學(xué)習(xí)方法。借鑒了英語(yǔ)chunk的定義,根據(jù)漢語(yǔ)自身的語(yǔ)言學(xué)特點(diǎn),作者給出了漢語(yǔ)組塊的定義,提出了基于機(jī)器學(xué)習(xí)的漢語(yǔ)淺層分析方法。其中包括: 1.給出了漢語(yǔ)組塊的定義,并具體描述
6、了如何從樹庫(kù)中抽取組塊??紤]到漢語(yǔ)和英語(yǔ)是兩種不同的語(yǔ)系,本文認(rèn)為中文組塊具有單一的語(yǔ)義核心,并且互相不嵌套的特點(diǎn),即,句子中的每一個(gè)詞語(yǔ)只能屬于一個(gè)組塊類型,并且每一種組塊類型中都不含有其他類型的組塊。本文使用Upenn中文樹庫(kù)作為語(yǔ)料,考慮到漢語(yǔ)和英語(yǔ)是兩種不同的語(yǔ)系,為了表示整個(gè)短語(yǔ)結(jié)構(gòu),本文定義了下面10種漢語(yǔ)組塊類型:基本動(dòng)詞短語(yǔ)VP,基本定冠詞短語(yǔ)DP,基本形容詞短語(yǔ)ADJP,基本量詞短語(yǔ)QP,基本片段短語(yǔ)FRAG,基本名詞
7、短語(yǔ)NP,基本介詞短語(yǔ)PP,由“LC”形成的基本短語(yǔ)LCP,基本副詞短語(yǔ)ADVP,基本分類詞短語(yǔ)CLP。其中某些組塊與Upenn中文樹庫(kù)中的短語(yǔ)結(jié)構(gòu)相同,而另外一些組塊與Upenn中文樹庫(kù)中的短語(yǔ)結(jié)構(gòu)卻不盡相同,本文具體描述了如何從樹庫(kù)中抽取出10種類型的組塊。 2.提出了基于條件隨機(jī)場(chǎng)(CRFs)的漢語(yǔ)淺層分析方法。CRFs是一種判別學(xué)習(xí)(discriminativelearning)方法,是有向圖模型的一種形式,在給定一個(gè)特
8、定的觀測(cè)序列下,在整個(gè)標(biāo)記序列的聯(lián)合概率上定義了一個(gè)單一的線性對(duì)數(shù)分布。通過(guò)單個(gè)狀態(tài)將增大的或減小的概率和傳遞到它們的后繼狀態(tài),使得這個(gè)單一的分布不需要對(duì)每個(gè)狀態(tài)進(jìn)行歸一化,整個(gè)狀態(tài)序列可以一起描述,從而克服了HMMs和MEMMs的標(biāo)記偏差(labelbias)問題,而標(biāo)記偏差的問題在漢語(yǔ)淺層分析中是個(gè)嚴(yán)重的問題。因此,作者提出了基于CRFs的漢語(yǔ)淺層分析方法。 3.提出基于支持向量機(jī)(SVMs)的漢語(yǔ)淺層分析方法。支持向量機(jī)是
9、一種生成學(xué)習(xí)(generativelearning)方法,是一個(gè)兩類分類器。其基本思想是:在訓(xùn)練數(shù)據(jù)中尋找一個(gè)能夠?qū)?shù)據(jù)準(zhǔn)確地分為兩個(gè)類別的超平面,如果數(shù)據(jù)不是線性可分的,則將數(shù)據(jù)映射到一個(gè)高維空間,進(jìn)而在高維空間中尋找一個(gè)能夠?qū)?shù)據(jù)正確無(wú)誤地分開的線性分割超平面,同時(shí)確保這個(gè)分割超平面能夠具有很高的泛化性能。為了解決漢語(yǔ)淺層分析多分類任務(wù),本文將基本的SVMs兩類分類器擴(kuò)展為多類別的SVMs分類器。 4.考察了one-agai
10、nst-rest和pairwise兩種多分類器擴(kuò)展方法和分析方向,即從左到右的前向分析(forwardparsing)或從右到左的后向分析(backwardparsing),在基于SVMs的漢語(yǔ)淺層分析中,對(duì)漢語(yǔ)淺層分析性能的影響進(jìn)行了研究。 5.考察了當(dāng)前分析位置上下文窗口大小和將數(shù)據(jù)映射到高維空間的不同階數(shù)的多項(xiàng)式核函數(shù),在基于SVMs的漢語(yǔ)淺層分析中,對(duì)漢語(yǔ)淺層分析性能的影響進(jìn)行了研究。 6.提出了基于SVMs+s
11、igmoid的漢語(yǔ)淺層分析。在SVMs的多分類器擴(kuò)展方法中,對(duì)于一個(gè)未知類別的樣本,存在兩個(gè)或多個(gè)分類器賦予它不同的類別,或沒有一個(gè)分類器對(duì)該未知類別的樣本預(yù)測(cè)出其所屬類別的情形。在上述情形下很難決策該未知類別樣本的所屬類別??紤]到當(dāng)前任何一個(gè)分類器的結(jié)果僅僅是全局決策的一個(gè)局部決策,其分類結(jié)果的好壞會(huì)影響到整個(gè)模型的性能。所以一個(gè)分類器僅僅是一個(gè)全局模型的子模型,其分類結(jié)果必須與全局模型的整個(gè)決策相結(jié)合,即,必須使用一個(gè)統(tǒng)一的模型來(lái)進(jìn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于機(jī)器學(xué)習(xí)的人臉美感分析研究.pdf
- 基于深度學(xué)習(xí)的漢語(yǔ)句法分析研究.pdf
- 基于淺層語(yǔ)義的文本傾向性分析研究.pdf
- 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的中文詞法分析研究.pdf
- 基于機(jī)器學(xué)習(xí)的漢語(yǔ)依存句法分析優(yōu)化研究.pdf
- 漢語(yǔ)合成中基于機(jī)器學(xué)習(xí)的韻律模型研究.pdf
- 基于機(jī)器學(xué)習(xí)的漢語(yǔ)情感極性分類方法研究.pdf
- 基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法的漢語(yǔ)分詞系統(tǒng)的研究.pdf
- 基于統(tǒng)計(jì)的漢語(yǔ)依存句法分析研究.pdf
- 基于機(jī)器學(xué)習(xí)和非線性理論的環(huán)境與生命信息分析研究.pdf
- 機(jī)器翻譯中名法語(yǔ)義相結(jié)合的漢語(yǔ)分析研究.pdf
- 韓國(guó)兒童的漢語(yǔ)教材分析研究——基于對(duì)比的視角.pdf
- 基于深度學(xué)習(xí)的文本情感分析研究.pdf
- 韓國(guó)學(xué)生學(xué)習(xí)漢語(yǔ)比較句偏誤分析研究.pdf
- 基于機(jī)器學(xué)習(xí)的漢語(yǔ)詞性自動(dòng)標(biāo)注系統(tǒng).pdf
- 基于學(xué)習(xí)分析技術(shù)的教師網(wǎng)絡(luò)學(xué)習(xí)行為的分析研究.pdf
- 基于依存語(yǔ)法的漢語(yǔ)句法分析研究.pdf
- 基于統(tǒng)計(jì)語(yǔ)言模型的漢語(yǔ)詞法分析研究.pdf
- 基于統(tǒng)計(jì)方法的漢語(yǔ)依存句法分析研究.pdf
- 基于語(yǔ)義依存關(guān)系的漢語(yǔ)句子分析研究.pdf
評(píng)論
0/150
提交評(píng)論