版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、由于萬維網(wǎng)上文本信息的快速增長,自然語言處理作為使計算機得以應(yīng)用文本形式信息的關(guān)鍵,已成為目前的一個研究熱點。本文的工作主要討論自然語言處理理論研究中的句法分析和應(yīng)用研究中的多文檔自動文摘這兩個方面的內(nèi)容。其中,句法分析是自然語言處理中的關(guān)鍵技術(shù),多文檔自動文摘、機器翻譯和信息檢索等許多自然語言處理的應(yīng)用研究需要依賴句法分析的結(jié)果作為支持;對句法分析的研究也有助于補充對人類語言的認知,因此句法分析的研究具有重要的理論意義和實用價值。多文
2、檔自動文摘可以給用戶提供簡明扼要的概述,幫助用戶快速處理文本信息,隨著網(wǎng)絡(luò)上文檔數(shù)量的飛速增長,多文檔自動文摘越來越受到人們的重視。
句法分析的關(guān)鍵問題是對單句對應(yīng)的多個句法結(jié)構(gòu)進行優(yōu)選的問題,而自動文摘中的關(guān)鍵問題則是對文檔中的多個句子進行優(yōu)選的問題。本文針對句法結(jié)構(gòu)和句子的優(yōu)選問題,在國家自然基金和山東省自然基金的資助下,使用生成性的概率模型,分別為句法結(jié)構(gòu)和句子建模,進行句法分析和多文檔自動文摘問題的研究。主要包括句
3、法分析中的語法體系、分析算法和分析模型三個方面的研究和多文檔自動文摘中句子表示形式和排序方法的研究,并通過實驗對研究結(jié)果進行了驗證和分析。
在句法分析的研究中,提出了一種新的語法體系,研究了該語法體系的分析算法和剪枝規(guī)則,并在概率分析模型中融合了新的結(jié)構(gòu)信息。在自動文摘的研究中,提出了一種基于概率主題模型的句子建模方法來挖掘文檔集潛在的主題結(jié)構(gòu),在該主題模型的基礎(chǔ)上,進一步研究了句子權(quán)重的計算方法和文摘的冗余消除方法。
4、r> 本文的主要研究內(nèi)容和創(chuàng)新點包括以下四個方面:
1.提出了一種以詞匯組合關(guān)系描述語法的二元組合語法體系
由于依存語法可以方便地表達中心詞與修飾詞之間的依賴關(guān)系,比短語結(jié)構(gòu)語法更適于信息檢索領(lǐng)域的應(yīng)用,是當前自然語言處理中語法體系的一個研究熱點。但依存語法缺乏內(nèi)部結(jié)構(gòu)表示,不能顯式地表達復(fù)雜的句法結(jié)構(gòu),對語法結(jié)構(gòu)的識別造成一定的障礙。針對語法體系中缺乏短語搭配強度和依存語法研究中缺乏內(nèi)部結(jié)構(gòu)表示形式造
5、成的復(fù)雜結(jié)構(gòu)難以表達的問題,提出了一種通過相鄰短語中心詞的兩兩組合來表達句法結(jié)構(gòu)的二元組合語法。在組合關(guān)系中引入局部優(yōu)先級來描述結(jié)構(gòu)之間相對的搭配強度,限制組合次序。二元組合語法中引入的內(nèi)部節(jié)點有利于句法結(jié)構(gòu)的表達和識別,局部優(yōu)先級表示的短語搭配強度可以限制句法分析中非法結(jié)構(gòu)的生成。
2.提出了一種基于局部優(yōu)先級的句法分析算法
句法分析算法是句法分析的重要組成部分,它直接影響句法分析的準確性和效率。針對本文提
6、出的二元組合語法,結(jié)合語法中定義的局部優(yōu)先級的限制,提出了一種基于局部優(yōu)先級的句法分析算法。局部優(yōu)先級的限制信息融入到二元組合語法的分析算法中后,可以作為分析過程中剪枝的規(guī)則。本文對傳統(tǒng)的CYK(Cocke,Younger,Kasami)圖算法進行改進,提出了一種基于局部優(yōu)先級的二元組合語法分析圖算法,并在人工歸納的語法體系上進行了句法分析實驗。結(jié)果表明,改進后的CYK圖算法在產(chǎn)生樹結(jié)構(gòu)的數(shù)量和花費的時間上都明顯低于傳統(tǒng)的CYK算法。<
7、br> 3.提出了一種基于嵌套層次限制的句法分析模型
在概率模型的構(gòu)建中,如何應(yīng)用句法結(jié)構(gòu)信息是句法分析建模中需考慮的主要問題。目前考察的信息主要有詞匯支配度的信息、依存長度的信息等。修飾詞的嵌套層數(shù)越多語言越難理解,本文將這種修飾詞嵌套層次的信息引入到生成性的概率分析模型中,增強對句法結(jié)構(gòu)的識別能力。在建立了基于局部優(yōu)先的CYK圖算法的基礎(chǔ)上,提出了一種融合嵌套層次限制的二元組合語法分析模型。句法分析實驗中,將依存
8、格式的樹庫轉(zhuǎn)換為二元組合語法的形式來構(gòu)建二元組合語法樹庫,然后基于該樹庫自動獲取句法關(guān)系和優(yōu)先級信息,并估計嵌套層次模型的參數(shù)。在二元組合語法樹庫上進行漢語句法分析的實驗,結(jié)果表明,與詞匯支配度模型相比,利用嵌套層次限制構(gòu)造的漢語句法分析模型可以獲得更高的分析正確率。實驗中也考察了局部優(yōu)先級限制對分析正確率的影響,結(jié)果表明局部優(yōu)先級和嵌套層次的限制可以有效的避免非法結(jié)構(gòu)的生成。
4.提出了一種基于生成性概率主題模型的多文檔
9、自動文摘方法
使用潛狄利克雷分配(Latent Dirichlet Allocation,LDA)模型為句子建模,以捕捉深層次的主題信息?;谀P椭兄黝}在詞匯上的概率分布p(w|z)和句子在主題上的概率分布p(z|s),提出了概率生成模型和句子生成模型兩種句子權(quán)重的計算方法,文摘中選擇權(quán)重較大、且與前面選擇的句子主題不重復(fù)的句子作為文摘句。實驗在DUC2002會議中提供的通用型多文檔文摘測試集上進行,以ROUGE自動評測工
10、具作為評測標準。結(jié)果表明,與基于詞頻的文摘模型和其它基于LDA模型的文摘模型相比,本文提出的模型可以獲得更好的文摘效果,其中概率生成模型在所有評價標準上均優(yōu)于其他模型。
本文進一步的工作包括:將組合關(guān)系的標簽作為上下文納入到分析算法中,以便于更精確的描述分析算法;在句法分析模型中添加其他有用的結(jié)構(gòu)信息和主題信息的約束,提高句法分析的正確率;在多文檔自動文摘方面使用句法主題模型為句子建模,以便同時考慮句法和主題信息,改善文摘
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 漢語自動句法分析的算符優(yōu)先文法模型.pdf
- 基于查詢的多文檔自動文摘.pdf
- 基于主題模型的中英文多文檔自動文摘.pdf
- 基于云模型的中文面向查詢多文檔自動文摘研究.pdf
- 基于詞匯鏈和PageRank的多文檔自動文摘研究.pdf
- 句法分析
- 基于詞匯化統(tǒng)計模型的漢語句法分析研究.pdf
- 面向自動句法分析的名詞再分類研究
- 基于組塊的句法分析技術(shù)研究.pdf
- 基于依存句法分析的多特征詞義消歧研究.pdf
- Web多文檔自動文摘研究.pdf
- 基于句法分析和主題建模的細粒度觀點挖掘模型研究.pdf
- 基于概率上下文無關(guān)語法的句法分析研究與實現(xiàn).pdf
- 基于事件的多文檔自動文摘系統(tǒng)的研究.pdf
- 基于概率主題模型的文檔自動分類.pdf
- 基于語義的依存句法分析優(yōu)化研究.pdf
- 基于轉(zhuǎn)換的依存句法分析研究.pdf
- 基于漢語依存句法分析的主觀題自動評分研究.pdf
- 面向查詢的多文檔自動文摘研究.pdf
- 面向事件的多文檔自動文摘研究.pdf
評論
0/150
提交評論