版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、句法分析是自然語言處理中的一個(gè)關(guān)鍵性問題。句法分析是語義分析、機(jī)器翻譯、信息抽取等許多自然語言處理任務(wù)的基礎(chǔ),這些任務(wù)的最終效果依賴于句法分析的準(zhǔn)確率。自然語言中句法分析研究的是句子中詞或者短語在句子中起到的作用和相互之間的關(guān)系,分析的最終結(jié)果往往以樹的形式表示,對(duì)句法分析的研究有著重要的理論和實(shí)用價(jià)值。相對(duì)于英語的句法分析,漢語句法分析起步較晚,加之用于實(shí)驗(yàn)的己標(biāo)注樹庫資源的匱乏,其發(fā)展較英語句法分析也相對(duì)落后。目前漢語句法分析的技術(shù)
2、還遠(yuǎn)不能滿足各種信息處理系統(tǒng)的需求,所以對(duì)漢語句法分析的研究有著迫切的現(xiàn)實(shí)需求。
歧義問題也是自然語言處理中常見的研究熱點(diǎn),漢語中的歧義結(jié)構(gòu)有很多,幾乎每一種短語結(jié)構(gòu)都是存在歧義的,本論文主要從賓州漢語樹庫CTB5.1統(tǒng)計(jì)出常見歧義結(jié)構(gòu)進(jìn)行研究。自然語言處理中要解決的歧義問題,是子句字符串的字面形式與實(shí)際意義之間的矛盾,同一個(gè)字面形式可能對(duì)應(yīng)多個(gè)不同的解釋意義,在本論文中,對(duì)于歧義結(jié)構(gòu)的不同意義,使用句法分析的樹結(jié)構(gòu)來表達(dá)
3、出不同的意義解釋。歧義的存在往往影響自然語言處理任務(wù)的最后效果,成為自然語言處理的巨大障礙。因此,深入研究漢語中常見歧義結(jié)構(gòu)的消除排解方法對(duì)漢語句法分析甚至自然語言處理都具有重要的作用。
本論文的研究重點(diǎn)有三部分,一部分是使用基于超圖的K-best漢語句法分析模型產(chǎn)生包含k個(gè)侯選樹的分析樹集合;一部分用引入樹核的投票感知機(jī)方法對(duì)K個(gè)侯選樹進(jìn)行重排序;最后一部分是使用機(jī)器學(xué)習(xí)的方法對(duì)漢語中常見歧義結(jié)構(gòu)進(jìn)行歧義消解,并通過將歧
4、義結(jié)構(gòu)的歧義消解工作引入到K-best模型的重排序過程中從而最終提升句法分析的效果。本論文在漢語句法分析的工作中,將基于概率上下文無關(guān)文法的漢語句法分析分為K-best基礎(chǔ)模型和重排序兩個(gè)階段,第一階段使用基于PCFG的CKY算法,在性能的提升上引入了超圖的思想,提高了分析的效率;第二個(gè)階段為對(duì)第一階段產(chǎn)生的多重結(jié)果的重排序技術(shù),本論文所介紹的重排序技術(shù)有三個(gè)特色:一是實(shí)現(xiàn)排序問題到分類問題的轉(zhuǎn)化并通過改進(jìn)的投票感知機(jī)算法實(shí)現(xiàn)重排序;二
5、是引入樹核方法到漢語句法分析中,并對(duì)樹核做了區(qū)別對(duì)待產(chǎn)生式規(guī)則,引入聚合產(chǎn)生式規(guī)則和引入λ參數(shù)的三個(gè)改進(jìn);三是引入漢語常見歧義結(jié)構(gòu)的統(tǒng)計(jì)消解方法到重排序任務(wù)中,有效地提高了重排序的效率和效果。
在常見歧義結(jié)構(gòu)的歧義消解方面,本論文通過對(duì)賓州中文樹庫(CTB)5.1進(jìn)行統(tǒng)計(jì)分析,識(shí)別出常見歧義結(jié)構(gòu),對(duì)常見歧義結(jié)構(gòu)的內(nèi)部詞匯化和上下文結(jié)構(gòu)信息進(jìn)行研究分析,創(chuàng)建相應(yīng)的特征模板,對(duì)歧義結(jié)構(gòu)對(duì)應(yīng)的字串在分析樹中的子樹結(jié)構(gòu)的前后相鄰結(jié)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 俄羅斯留學(xué)生漢語語音偏誤及教學(xué)策略.pdf
- 俄羅斯留學(xué)生漢語語音偏誤分析及教學(xué)策略.pdf
- 留學(xué)生漢語稱謂語的使用調(diào)查與教學(xué)策略.pdf
- 俄羅斯留學(xué)生漢語語音習(xí)得偏誤及教學(xué)策略.pdf
- 高級(jí)階段留學(xué)生漢語復(fù)句偏誤分析及教學(xué)策略.pdf
- 斯里蘭卡留學(xué)生使用漢語結(jié)構(gòu)助詞“的”“地”“得”的偏誤分析及教學(xué)策略.pdf
- 蒙古國留學(xué)生漢語成語的習(xí)得與教學(xué)策略.pdf
- 留學(xué)生漢語成語習(xí)得偏誤調(diào)查及教學(xué)策略研究.pdf
- 面向留學(xué)生的漢語近義詞教學(xué)研究.pdf
- 英語背景留學(xué)生與泰語背景留學(xué)生漢語量詞習(xí)得偏誤比較及教學(xué)策略研究.pdf
- 太原市留學(xué)生漢語學(xué)習(xí)動(dòng)機(jī)現(xiàn)狀及教學(xué)策略研究
- 太原市留學(xué)生漢語學(xué)習(xí)動(dòng)機(jī)現(xiàn)狀及教學(xué)策略研究.pdf
- 留學(xué)生習(xí)得漢語程度副詞偏誤分析及相應(yīng)教學(xué)策略.pdf
- 留學(xué)生學(xué)習(xí)漢語動(dòng)詞重疊的偏誤分析和教學(xué)策略.pdf
- 韓國留學(xué)生漢語離合詞偏誤分析與教學(xué)策略.pdf
- 中高級(jí)留學(xué)生學(xué)習(xí)漢語成語的偏誤分析及教學(xué)策略.pdf
- 日本留學(xué)生漢字偏誤分析及教學(xué)策略.pdf
- 留學(xué)生禮貌用語偏誤分析及教學(xué)策略.pdf
- 韓國留學(xué)生“比”字句教學(xué)策略研究.pdf
- 留學(xué)生“讓”字句偏誤分析及教學(xué)策略.pdf
評(píng)論
0/150
提交評(píng)論