版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、依存句法分析的目標(biāo)是分析輸入句子的句法結(jié)構(gòu),將詞語序列轉(zhuǎn)化為樹狀的依存結(jié)構(gòu)。一條依存弧兩個詞語構(gòu)成搭配關(guān)系,依存弧上的標(biāo)簽表示搭配的具體類型,如主語、賓語、狀語等。在不同語法體系中,依存語法以其形式簡潔、易于標(biāo)注、便于應(yīng)用等優(yōu)點(diǎn),逐漸受到研究人員的重視。計算自然語言學(xué)習(xí)國際會議(CoNLL)聯(lián)合舉辦的公開評測任務(wù)從2006年至2009年連續(xù)四年關(guān)注面向多語言的依存句法分析,大大推動了依存句法分析的發(fā)展。依存句法分析也越來越廣泛的應(yīng)用于機(jī)
2、器翻譯、問答系統(tǒng)、文本挖掘、信息檢索等。
依存句法分析的研究工作旨在提高依存分析的準(zhǔn)確率和效率。高準(zhǔn)確率的分析結(jié)果可以為上層應(yīng)用提供更可信的句法結(jié)構(gòu)。隨著互聯(lián)網(wǎng)數(shù)據(jù)的迅速膨脹,上層應(yīng)用系統(tǒng)需要迅速處理海量的信息,因此效率對于依存句法分析的應(yīng)用也很關(guān)鍵。本文的研究內(nèi)容涵蓋這兩個問題,包括以下四個方面。
1.提出了基于柱搜索和標(biāo)點(diǎn)切分的快速高階依存句法分析方法。針對前人提出的面向高階依存句法分析模型的動態(tài)規(guī)劃解碼算法時間
3、復(fù)雜度高的問題,本文提出使用柱搜索的近似解碼算法,一方面允許模型可以方便的融入豐富的高階句法子樹特征,另一方面保證較低的時間復(fù)雜度,我們實現(xiàn)的基于柱搜索的高階依存句法分析系統(tǒng)在CoNLL2009年多語依存句法分析和語義角色標(biāo)注聯(lián)合評測任務(wù)上取得了優(yōu)異的成績。進(jìn)而,我們針對漢語的特點(diǎn),提出一種利用標(biāo)點(diǎn)符號進(jìn)行長句切分的二階段依存句法分析方法,進(jìn)一步提高依存句法分析模型處理長句時的效率。實驗證明,這種方法可以大幅度提高依存句法分析的速度,長
4、句子的句法分析準(zhǔn)確率也有提高。
2.提出了漢語詞性標(biāo)注和依存句法分析聯(lián)合模型。由于缺少詞語的形態(tài)變化信息,漢語詞性標(biāo)注和其他語言如英語相比,準(zhǔn)確率較低。這對對漢語依存句法分析帶來嚴(yán)重的錯誤蔓延問題。實驗表明使用自動詞性時依存句法分析準(zhǔn)確率比使用正確詞性時低大約6%。對此,本文提出并深入系統(tǒng)的研究了漢語詞性標(biāo)注和依存句法分析聯(lián)合模型。首先,我們擴(kuò)展了前人提出的面向依存句法分析的解碼算法,提出了相應(yīng)的面向聯(lián)合模型的基于動態(tài)規(guī)劃的解
5、碼算法。并且,為了解決聯(lián)合解碼算法的時間復(fù)雜度過高的問題,我們又提出了一種有效地基于邊緣概率的詞性裁剪方法。實驗結(jié)果表明聯(lián)合模型可以提高詞性和句法準(zhǔn)確率。深入的錯誤分析表明聯(lián)合模型可以幫助消解句法敏感的詞性歧義。
3.提出了面向聯(lián)合模型的分離被動進(jìn)取訓(xùn)練算法。詞性標(biāo)注和依存句法分析聯(lián)合模型中句法特征占據(jù)主導(dǎo)地位,導(dǎo)致詞性特征無法貢獻(xiàn)其消歧作用。對此,本文提出一種面向詞性標(biāo)注和依存句法分析聯(lián)合模型的訓(xùn)練算法。算法分別不同的步長對
6、詞性特征和句法特征的權(quán)重進(jìn)行更新。和傳統(tǒng)的平均感知器和被動進(jìn)取訓(xùn)練算法相比,分離被動進(jìn)取訓(xùn)練算法可以很自然的增大詞性特征的權(quán)重,從而更好的平衡聯(lián)合模型中詞性特征和句法特征的消歧作用。實驗發(fā)現(xiàn),我們的基于分離被動進(jìn)取訓(xùn)練算法的聯(lián)合模型在漢語和英語數(shù)據(jù)上都可以取得最好的詞性和句法準(zhǔn)確率。
4.提出了基于準(zhǔn)同步文法的多樹庫融合方法。漢語存在多個異構(gòu)樹庫,而利用多個樹庫以提高依存句法分析準(zhǔn)確率是一個非常有吸引力的課題。本文提出一種基于
7、準(zhǔn)同步文法的多樹庫融合方法,充分利用標(biāo)注規(guī)范不同的多個單語樹庫,以提高句法分析準(zhǔn)確率。我們設(shè)計了豐富的轉(zhuǎn)換模式來刻畫不同標(biāo)注規(guī)范間的對應(yīng)規(guī)律,然后基于這些轉(zhuǎn)化模式形成準(zhǔn)同步文法特征,從而增強(qiáng)基準(zhǔn)依存句法分析模型。準(zhǔn)同步文法特征用來指導(dǎo)句法模型做出更好的決策,并且可以很自然的融入到基于圖的句法分析解碼算法中。實驗結(jié)果表明,我們的方法可以充分利用源樹庫的知識。從而提高句法模型在目標(biāo)樹庫上的準(zhǔn)確率。
總之,本文針對漢語特點(diǎn),深入研究
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 日語依存句法分析技術(shù)研究.pdf
- 高性能漢語依存句法分析方法的研究.pdf
- 漢語依存句法分析方法的研究與實現(xiàn).pdf
- 中文成分句法分析關(guān)鍵技術(shù)研究.pdf
- 基于統(tǒng)計的漢語依存句法分析研究.pdf
- 基于統(tǒng)計方法的漢語長句依存句法分析.pdf
- 基于機(jī)器學(xué)習(xí)的漢語依存句法分析優(yōu)化研究.pdf
- 面向依存句法分析優(yōu)化技術(shù)的研究.pdf
- 基于依存語法的漢語句法分析研究.pdf
- 基于統(tǒng)計方法的漢語依存句法分析研究.pdf
- 依存句法分析的若干關(guān)鍵問題的研究.pdf
- 依存語法句法分析系統(tǒng)的研究.pdf
- 漢語句法分析的重排序技術(shù)研究.pdf
- 依存句法分析的置信度研究.pdf
- 基于語義的依存句法分析優(yōu)化研究.pdf
- 基于轉(zhuǎn)換的依存句法分析研究.pdf
- 基于漢語依存句法分析的主觀題自動評分研究.pdf
- 漢語并列關(guān)系復(fù)句中的決策式依存句法分析與研究.pdf
- 漢語并列關(guān)系復(fù)句中的決策式依存句法分析與研究
- 基于組塊的句法分析技術(shù)研究.pdf
評論
0/150
提交評論