多文檔文摘相關技術研究.pdf_第1頁
已閱讀1頁,還剩121頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、隨著互聯(lián)網(wǎng)時代的到來,如何有效地組織和分析信息,提高人們獲取信息的效率,成為滿足人們需求的關鍵問題,這使得多文檔文摘技術成為研究熱點,其進步推動了相關技術的發(fā)展。自動文摘是為了達到特定用戶或任務要求,從信息源中提取重要信息、生成精簡版本的過程。多文檔文摘是針對信息源由多篇關于同一主題文檔組成的文檔集合。
  多文檔文摘與單文檔文摘相比面臨冗余信息多、壓縮比大和文摘可讀性差等問題。生成一篇好的文摘,不但需要對文檔進行深入地分析,還需

2、要有效的文摘句選擇與排序。文摘句的選擇決定了最終文摘的組成成分,文摘句的排序決定了文摘的可讀性,這兩者都直接影響生成文摘的質量。評測是自然語言處理技術研究與發(fā)展的一個關鍵部分,評測標準的規(guī)范和資源的共享可以使研究成果的比較合理化,對技術的發(fā)展起到促進作用。文摘的自動評測一直是個難點,多文檔文摘由于引入大量相關、相似信息,進一步增加了評測的難度。針對上述問題,本文從如下幾個方面進行了研究:
  1.研究了基于主題簽名的多文檔文摘方法

3、。探討了基于主題簽名的多文檔文摘的關鍵技術,實驗驗證了基于主題簽名的多文檔文摘方法的有效性,以及各關鍵技術對多文檔文摘性能的影響。加深對多文檔文摘的理解,為后續(xù)相關研究提供了很好的基礎和實驗平臺。
  2.研究了多文檔文摘句選擇與排序技術,驗證了英文多文檔文摘技術向中文的可移植性。首先分析目前多文檔文摘句選擇方法及存在問題,提出了以文摘結果整體選優(yōu)為目的采用多候選文摘和兩級文摘句選擇策略的兩種文摘句選擇方法,驗證了所提方法有效地提

4、高了多文檔文摘的性能。其次研究MajorityOrdering句子排序方法及其存在的問題,提出了基于內(nèi)聚的句子排序方法,在一定程度上避免了話題中斷,從而使文摘更加連貫。最后驗證了本文提出的英文多文檔文摘相關技術在中文文摘上也具有較好的結果。
  3.研究了面向文檔集合類型的多文檔文摘方法。選取具有代表性的多文檔文摘方法進行分析,根據(jù)文檔集合涉及到的事件類型、文檔集合涉及的領域分析并指出文檔集合類型直接影響多文檔文摘方法生成文摘的質

5、量,且多事件文檔集合類型是導致多文檔文摘質量下降的原因之一,所以提出了一種面向多事件文檔集合類型的多文檔文摘方法。所提方法通過對文檔集合內(nèi)容主成分獲取確定文檔集合內(nèi)容的主線和輔線,并采用基于主線與輔線的文摘句選擇方法生成文摘。實驗結果表明,所提方法在多事件文檔集合上生成的文摘質量與目前好的多文檔文摘方法在單一事件文檔集合上生成的文摘相當,證明了所提出方法的有效性。
  4.研究了基于內(nèi)容相似度的文摘自動評測方法。著重分析了基于內(nèi)容

6、完整性的評測方法的優(yōu)缺點,在此基礎上,提出基于內(nèi)容相似度的文摘自動評測方法。在對較大規(guī)模語料進行實驗后,引入統(tǒng)計相關分析,驗證了該自動評測方法的有效性。對比不同項權重的評測結果,證明了TF-IDF權重信息的引入改善了缺少評測語料的多文檔文摘自動評測的質量。
  綜上所述,本文主要貢獻在于從文摘整體選優(yōu)角度提出了有效的文摘句選擇方法。提出了基于內(nèi)聚的句子排序方法,在一定程度上避免了話題中斷,使文摘更加連貫。在一定規(guī)模語料上對主流多文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論