時序多文檔文摘相關(guān)技術(shù)研究.pdf_第1頁
已閱讀1頁,還剩126頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、互聯(lián)網(wǎng)的發(fā)展產(chǎn)生了爆炸式增長的文本、圖像、音頻和視頻等多媒體信息。面對信息極大豐富,知識相對匱乏的時代,人們陷入一種咨訊焦慮的困境之中。而且隨著時間的不斷演化,相關(guān)的媒體信息也在逐漸地更新和進化。如何有效地獲取、組織信息逐漸成為信息處理領(lǐng)域的一大挑戰(zhàn)。本文以信息壓縮為目標(biāo),著重研究文本壓縮技術(shù)。
  時序多文檔文摘為自動文摘領(lǐng)域的新方向,是傳統(tǒng)靜態(tài)多文檔文摘的自然擴展,其處理的對象跨越了同一時段的相關(guān)文檔集,即處理跨時段的相關(guān)文檔

2、集。其主要目標(biāo)是按照一定的壓縮比從時序角度自動總結(jié)出系列新聞報道的內(nèi)容進化,以幫助人們快速獲取信息。伴隨著國際評測DUC2007、TAC2008的舉辦,相關(guān)的研究越來越受到政府、企業(yè)界和學(xué)術(shù)界的重視。時序多文檔文摘有著廣闊的應(yīng)用前景,可用于新聞搜索引擎、商業(yè)競爭情報分析、趨勢預(yù)測等領(lǐng)域,通過不斷滿足人們的需求,創(chuàng)造更大的社會價值。
  本文的研究對象系列新聞報道本身具有比較突出的時序特性,可以認(rèn)為同一時段的靜態(tài)多文檔文摘是時序多文

3、檔文摘的一種特殊情況。因此,時序多文檔文摘的研究重點是如何在時序上下文的背景下解決傳統(tǒng)靜態(tài)多文檔文摘的內(nèi)容選擇和語言質(zhì)量控制兩大難題。前人的工作對時序信息考慮的比較少,本文著眼于識別時序特性并應(yīng)用其來深度挖掘時序多文檔文摘的抽取式內(nèi)容選擇方法,力圖保持文摘內(nèi)容的重要性、新穎性和覆蓋性,重點研究了以下問題:
  1、識別時間表達式并進行歸一化。理解文本的語義是自然語言處理的終極目標(biāo),而時序語義對于理解文本是不可或缺的。時間表達式識別

4、和歸一化是時序語義標(biāo)注的基礎(chǔ)。時間表達式識別與歸一化的研究為時序多文檔文摘的內(nèi)容選擇和語言質(zhì)量控制奠定了基礎(chǔ),也可以為其它時序信息抽取應(yīng)用提供支撐。
  2、基于宏微觀重要性判別模型的內(nèi)容選擇。本著逐步求精的原則,首先在假設(shè)系列新聞報道各時間片相互獨立的基礎(chǔ)上,通過分析其不斷演化的宏微觀時序進化特性,探索基于宏微觀重要性判別模型的時序多文檔文摘內(nèi)容選擇方法。
  3、基于進化流形排序的話題相關(guān)內(nèi)容選擇。更進一步,系列新聞報道

5、在時間軸上是連續(xù)進化的,在假設(shè)當(dāng)前時間片的內(nèi)容進化依賴于以前時間片話題內(nèi)容的基礎(chǔ)上,研究話題描述的動態(tài)增強對表達用戶興趣不斷更新所帶來的信息需求的變化,對內(nèi)容選擇的影響。提出迭代反饋機制引導(dǎo)的進化流形排序算法,以模擬系列新聞報道中話題演化的動態(tài)性,為時序多文檔文摘的內(nèi)容選擇提供了時序自適應(yīng)的重要性排序。
  4、譜聚類增強的話題相關(guān)內(nèi)容選擇優(yōu)化。在進化流形排序的基礎(chǔ)上,研究了通過歸一化譜聚類改進內(nèi)容選擇的覆蓋性,設(shè)計了時序去冗余策

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論