時序多文檔文摘相關技術研究.pdf_第1頁
已閱讀1頁,還剩126頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、互聯(lián)網(wǎng)的發(fā)展產(chǎn)生了爆炸式增長的文本、圖像、音頻和視頻等多媒體信息。面對信息極大豐富,知識相對匱乏的時代,人們陷入一種咨訊焦慮的困境之中。而且隨著時間的不斷演化,相關的媒體信息也在逐漸地更新和進化。如何有效地獲取、組織信息逐漸成為信息處理領域的一大挑戰(zhàn)。本文以信息壓縮為目標,著重研究文本壓縮技術。
  時序多文檔文摘為自動文摘領域的新方向,是傳統(tǒng)靜態(tài)多文檔文摘的自然擴展,其處理的對象跨越了同一時段的相關文檔集,即處理跨時段的相關文檔

2、集。其主要目標是按照一定的壓縮比從時序角度自動總結(jié)出系列新聞報道的內(nèi)容進化,以幫助人們快速獲取信息。伴隨著國際評測DUC2007、TAC2008的舉辦,相關的研究越來越受到政府、企業(yè)界和學術界的重視。時序多文檔文摘有著廣闊的應用前景,可用于新聞搜索引擎、商業(yè)競爭情報分析、趨勢預測等領域,通過不斷滿足人們的需求,創(chuàng)造更大的社會價值。
  本文的研究對象系列新聞報道本身具有比較突出的時序特性,可以認為同一時段的靜態(tài)多文檔文摘是時序多文

3、檔文摘的一種特殊情況。因此,時序多文檔文摘的研究重點是如何在時序上下文的背景下解決傳統(tǒng)靜態(tài)多文檔文摘的內(nèi)容選擇和語言質(zhì)量控制兩大難題。前人的工作對時序信息考慮的比較少,本文著眼于識別時序特性并應用其來深度挖掘時序多文檔文摘的抽取式內(nèi)容選擇方法,力圖保持文摘內(nèi)容的重要性、新穎性和覆蓋性,重點研究了以下問題:
  1、識別時間表達式并進行歸一化。理解文本的語義是自然語言處理的終極目標,而時序語義對于理解文本是不可或缺的。時間表達式識別

4、和歸一化是時序語義標注的基礎。時間表達式識別與歸一化的研究為時序多文檔文摘的內(nèi)容選擇和語言質(zhì)量控制奠定了基礎,也可以為其它時序信息抽取應用提供支撐。
  2、基于宏微觀重要性判別模型的內(nèi)容選擇。本著逐步求精的原則,首先在假設系列新聞報道各時間片相互獨立的基礎上,通過分析其不斷演化的宏微觀時序進化特性,探索基于宏微觀重要性判別模型的時序多文檔文摘內(nèi)容選擇方法。
  3、基于進化流形排序的話題相關內(nèi)容選擇。更進一步,系列新聞報道

5、在時間軸上是連續(xù)進化的,在假設當前時間片的內(nèi)容進化依賴于以前時間片話題內(nèi)容的基礎上,研究話題描述的動態(tài)增強對表達用戶興趣不斷更新所帶來的信息需求的變化,對內(nèi)容選擇的影響。提出迭代反饋機制引導的進化流形排序算法,以模擬系列新聞報道中話題演化的動態(tài)性,為時序多文檔文摘的內(nèi)容選擇提供了時序自適應的重要性排序。
  4、譜聚類增強的話題相關內(nèi)容選擇優(yōu)化。在進化流形排序的基礎上,研究了通過歸一化譜聚類改進內(nèi)容選擇的覆蓋性,設計了時序去冗余策

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論