文本自動摘要和信息抽取方法及其應(yīng)用研究.pdf_第1頁
已閱讀1頁,還剩117頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、隨著文本數(shù)據(jù)特別是網(wǎng)頁信息的持續(xù)激增,如何快速、自動地抽取海量文本中蘊含的主要或重要信息,已成為人們關(guān)心的一個熱點研究問題,由此刺激了面向文本的信息抽取技術(shù)的迅速發(fā)展。文本摘要技術(shù)能夠抽取文本的篇章結(jié)構(gòu)及主要信息,自動生成單篇文檔或多篇文檔的摘要,可以看成是信息抽取技術(shù)的一種。而通常意義上的信息抽取技術(shù)則主要是抽取文本中蘊含的用戶所需的特定重要信息。
   本文面向循證醫(yī)學(xué)(EBM)網(wǎng)頁并結(jié)合其它類型的訓(xùn)練文本,重點研究文本的自

2、動摘要和信息抽取方法,主要針對信息抽取結(jié)果不理想、主題劃分不明確、段落聚類算法對初始值敏感、聚類數(shù)目需要人工設(shè)定等問題,提出一系列新穎的研究方法和模型。
   (1)提出一種段落特征與隱馬爾可夫模型相結(jié)合的信息抽取方法。該方法與其它信息抽取方法的不同之處在于以段落而不是單詞為研究對象。網(wǎng)頁上的信息經(jīng)過預(yù)處理以后,以段落為單位,保存成文本序列,每一個段落要轉(zhuǎn)換成特定的字符串,這些字符串做為隱馬爾可夫模型中的可觀察變量。實驗表明,無

3、論是準(zhǔn)確率還是召回率,以段落為觀察序列的信息抽取結(jié)果都要優(yōu)于以單詞為觀察序列的信息抽取結(jié)果。
   (2)對文檔進(jìn)行主題劃分,為摘要的生成做準(zhǔn)備。主題劃分的過程是將文本中的段落表示成向量空間模型,利用互信息計算連續(xù)段落的關(guān)聯(lián)程度,將關(guān)聯(lián)程度較弱的段落作為劃分的邊界。考慮到算法中人工定義參數(shù)會對劃分結(jié)果造成一定程度的不利影響,所以本文采用遺傳算法對主題劃分過程中出現(xiàn)的參數(shù)閾值進(jìn)行優(yōu)化。實驗表明,互信息與遺傳算法相結(jié)合的主題劃分方法

4、在準(zhǔn)確率上取得了較好的結(jié)果。
   (3)對單詞-文檔譜聚類方法的基本步驟進(jìn)行分析,找出其對初始值敏感的根本原因,提出一種基于模糊K-調(diào)和均值的單詞.文檔譜聚類方法。該方法包括兩個方面,一是從矩陣相似的角度對譜聚類中的Laplacian矩陣進(jìn)行處理,使其滿足對初始值不敏感的條件。二是通過加入模糊的概念,用模糊K-調(diào)和均值算法代替K-均值算法,使聚類結(jié)果對初始值不敏感。實驗表明,基于模糊K-調(diào)和均值的單詞-文檔譜聚類方法不僅使聚類

5、結(jié)果對初始值不敏感,而且在一定程度上改進(jìn)了數(shù)據(jù)的聚類結(jié)果。
   (4)利用形態(tài)學(xué)的方法確定聚類數(shù)目,并對單詞-文檔譜聚類方法進(jìn)行改進(jìn)。確定聚類數(shù)目主要分三個步驟,第一步將單詞-文檔譜聚類方法中產(chǎn)生的矩陣轉(zhuǎn)換成VAT灰度圖,第二步利用灰度形態(tài)學(xué)、圖像二值化、距離轉(zhuǎn)換等圖像處理技術(shù)對VAT灰度圖進(jìn)行過濾,第三步對過濾后的。VAT灰度圖建立信號圖,并進(jìn)行平滑處理,通過平滑后的信號圖的波峰波谷數(shù)目確定文檔集的聚類數(shù)目。實驗表明,該方法

6、能夠提高單詞-文檔譜聚類方法的聚類效果。
   (5)在LDA.主題模型的基礎(chǔ)上,提出了基于主題融合的多文檔自動摘要算法Titled-LDA??紤]到文檔的標(biāo)題信息對摘要形成有很強(qiáng)的指示作用,因此為每篇文檔分別建立標(biāo)題和正文的主題模型,并對兩個模型進(jìn)行融合。融合過程中,根據(jù)兩種形態(tài)的信息熵,進(jìn)行自適應(yīng)不對稱學(xué)習(xí),從而對不同形態(tài)的主題分布進(jìn)行加權(quán)處理,融合后的模型適當(dāng)?shù)仃P(guān)聯(lián)了標(biāo)題和正文的信息,因此有助于摘要質(zhì)量的提高。實驗表明,Ti

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論