基于生成性概率模型的句法分析和多文檔自動(dòng)文摘研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩130頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、由于萬(wàn)維網(wǎng)上文本信息的快速增長(zhǎng),自然語(yǔ)言處理作為使計(jì)算機(jī)得以應(yīng)用文本形式信息的關(guān)鍵,已成為目前的一個(gè)研究熱點(diǎn)。本文的工作主要討論自然語(yǔ)言處理理論研究中的句法分析和應(yīng)用研究中的多文檔自動(dòng)文摘這兩個(gè)方面的內(nèi)容。其中,句法分析是自然語(yǔ)言處理中的關(guān)鍵技術(shù),多文檔自動(dòng)文摘、機(jī)器翻譯和信息檢索等許多自然語(yǔ)言處理的應(yīng)用研究需要依賴句法分析的結(jié)果作為支持;對(duì)句法分析的研究也有助于補(bǔ)充對(duì)人類語(yǔ)言的認(rèn)知,因此句法分析的研究具有重要的理論意義和實(shí)用價(jià)值。多文

2、檔自動(dòng)文摘可以給用戶提供簡(jiǎn)明扼要的概述,幫助用戶快速處理文本信息,隨著網(wǎng)絡(luò)上文檔數(shù)量的飛速增長(zhǎng),多文檔自動(dòng)文摘越來(lái)越受到人們的重視。
   句法分析的關(guān)鍵問題是對(duì)單句對(duì)應(yīng)的多個(gè)句法結(jié)構(gòu)進(jìn)行優(yōu)選的問題,而自動(dòng)文摘中的關(guān)鍵問題則是對(duì)文檔中的多個(gè)句子進(jìn)行優(yōu)選的問題。本文針對(duì)句法結(jié)構(gòu)和句子的優(yōu)選問題,在國(guó)家自然基金和山東省自然基金的資助下,使用生成性的概率模型,分別為句法結(jié)構(gòu)和句子建模,進(jìn)行句法分析和多文檔自動(dòng)文摘問題的研究。主要包括句

3、法分析中的語(yǔ)法體系、分析算法和分析模型三個(gè)方面的研究和多文檔自動(dòng)文摘中句子表示形式和排序方法的研究,并通過(guò)實(shí)驗(yàn)對(duì)研究結(jié)果進(jìn)行了驗(yàn)證和分析。
   在句法分析的研究中,提出了一種新的語(yǔ)法體系,研究了該語(yǔ)法體系的分析算法和剪枝規(guī)則,并在概率分析模型中融合了新的結(jié)構(gòu)信息。在自動(dòng)文摘的研究中,提出了一種基于概率主題模型的句子建模方法來(lái)挖掘文檔集潛在的主題結(jié)構(gòu),在該主題模型的基礎(chǔ)上,進(jìn)一步研究了句子權(quán)重的計(jì)算方法和文摘的冗余消除方法。

4、r>   本文的主要研究?jī)?nèi)容和創(chuàng)新點(diǎn)包括以下四個(gè)方面:
   1.提出了一種以詞匯組合關(guān)系描述語(yǔ)法的二元組合語(yǔ)法體系
   由于依存語(yǔ)法可以方便地表達(dá)中心詞與修飾詞之間的依賴關(guān)系,比短語(yǔ)結(jié)構(gòu)語(yǔ)法更適于信息檢索領(lǐng)域的應(yīng)用,是當(dāng)前自然語(yǔ)言處理中語(yǔ)法體系的一個(gè)研究熱點(diǎn)。但依存語(yǔ)法缺乏內(nèi)部結(jié)構(gòu)表示,不能顯式地表達(dá)復(fù)雜的句法結(jié)構(gòu),對(duì)語(yǔ)法結(jié)構(gòu)的識(shí)別造成一定的障礙。針對(duì)語(yǔ)法體系中缺乏短語(yǔ)搭配強(qiáng)度和依存語(yǔ)法研究中缺乏內(nèi)部結(jié)構(gòu)表示形式造

5、成的復(fù)雜結(jié)構(gòu)難以表達(dá)的問題,提出了一種通過(guò)相鄰短語(yǔ)中心詞的兩兩組合來(lái)表達(dá)句法結(jié)構(gòu)的二元組合語(yǔ)法。在組合關(guān)系中引入局部?jī)?yōu)先級(jí)來(lái)描述結(jié)構(gòu)之間相對(duì)的搭配強(qiáng)度,限制組合次序。二元組合語(yǔ)法中引入的內(nèi)部節(jié)點(diǎn)有利于句法結(jié)構(gòu)的表達(dá)和識(shí)別,局部?jī)?yōu)先級(jí)表示的短語(yǔ)搭配強(qiáng)度可以限制句法分析中非法結(jié)構(gòu)的生成。
   2.提出了一種基于局部?jī)?yōu)先級(jí)的句法分析算法
   句法分析算法是句法分析的重要組成部分,它直接影響句法分析的準(zhǔn)確性和效率。針對(duì)本文提

6、出的二元組合語(yǔ)法,結(jié)合語(yǔ)法中定義的局部?jī)?yōu)先級(jí)的限制,提出了一種基于局部?jī)?yōu)先級(jí)的句法分析算法。局部?jī)?yōu)先級(jí)的限制信息融入到二元組合語(yǔ)法的分析算法中后,可以作為分析過(guò)程中剪枝的規(guī)則。本文對(duì)傳統(tǒng)的CYK(Cocke,Younger,Kasami)圖算法進(jìn)行改進(jìn),提出了一種基于局部?jī)?yōu)先級(jí)的二元組合語(yǔ)法分析圖算法,并在人工歸納的語(yǔ)法體系上進(jìn)行了句法分析實(shí)驗(yàn)。結(jié)果表明,改進(jìn)后的CYK圖算法在產(chǎn)生樹結(jié)構(gòu)的數(shù)量和花費(fèi)的時(shí)間上都明顯低于傳統(tǒng)的CYK算法。<

7、br>   3.提出了一種基于嵌套層次限制的句法分析模型
   在概率模型的構(gòu)建中,如何應(yīng)用句法結(jié)構(gòu)信息是句法分析建模中需考慮的主要問題。目前考察的信息主要有詞匯支配度的信息、依存長(zhǎng)度的信息等。修飾詞的嵌套層數(shù)越多語(yǔ)言越難理解,本文將這種修飾詞嵌套層次的信息引入到生成性的概率分析模型中,增強(qiáng)對(duì)句法結(jié)構(gòu)的識(shí)別能力。在建立了基于局部?jī)?yōu)先的CYK圖算法的基礎(chǔ)上,提出了一種融合嵌套層次限制的二元組合語(yǔ)法分析模型。句法分析實(shí)驗(yàn)中,將依存

8、格式的樹庫(kù)轉(zhuǎn)換為二元組合語(yǔ)法的形式來(lái)構(gòu)建二元組合語(yǔ)法樹庫(kù),然后基于該樹庫(kù)自動(dòng)獲取句法關(guān)系和優(yōu)先級(jí)信息,并估計(jì)嵌套層次模型的參數(shù)。在二元組合語(yǔ)法樹庫(kù)上進(jìn)行漢語(yǔ)句法分析的實(shí)驗(yàn),結(jié)果表明,與詞匯支配度模型相比,利用嵌套層次限制構(gòu)造的漢語(yǔ)句法分析模型可以獲得更高的分析正確率。實(shí)驗(yàn)中也考察了局部?jī)?yōu)先級(jí)限制對(duì)分析正確率的影響,結(jié)果表明局部?jī)?yōu)先級(jí)和嵌套層次的限制可以有效的避免非法結(jié)構(gòu)的生成。
   4.提出了一種基于生成性概率主題模型的多文檔

9、自動(dòng)文摘方法
   使用潛狄利克雷分配(Latent Dirichlet Allocation,LDA)模型為句子建模,以捕捉深層次的主題信息?;谀P椭兄黝}在詞匯上的概率分布p(w|z)和句子在主題上的概率分布p(z|s),提出了概率生成模型和句子生成模型兩種句子權(quán)重的計(jì)算方法,文摘中選擇權(quán)重較大、且與前面選擇的句子主題不重復(fù)的句子作為文摘句。實(shí)驗(yàn)在DUC2002會(huì)議中提供的通用型多文檔文摘測(cè)試集上進(jìn)行,以ROUGE自動(dòng)評(píng)測(cè)工

10、具作為評(píng)測(cè)標(biāo)準(zhǔn)。結(jié)果表明,與基于詞頻的文摘模型和其它基于LDA模型的文摘模型相比,本文提出的模型可以獲得更好的文摘效果,其中概率生成模型在所有評(píng)價(jià)標(biāo)準(zhǔn)上均優(yōu)于其他模型。
   本文進(jìn)一步的工作包括:將組合關(guān)系的標(biāo)簽作為上下文納入到分析算法中,以便于更精確的描述分析算法;在句法分析模型中添加其他有用的結(jié)構(gòu)信息和主題信息的約束,提高句法分析的正確率;在多文檔自動(dòng)文摘方面使用句法主題模型為句子建模,以便同時(shí)考慮句法和主題信息,改善文摘

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論