文本信息抽取模型及算法研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩131頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、從20世紀(jì)60年代以來(lái),作為自然語(yǔ)言處理領(lǐng)域的一個(gè)重要研究分支,文本信息抽取理論的研究受到了國(guó)內(nèi)外研究者的廣泛關(guān)注,得到了不斷的發(fā)展,取得了許多研究成果。但是,在文本信息抽取中還存在許多關(guān)鍵的問(wèn)題,例如,文本信息抽取性能不高、抽取模型的適用性不強(qiáng)、訓(xùn)練文本的人工標(biāo)記工作量大等問(wèn)題,有待進(jìn)一步通過(guò)研究加以解決。本文通過(guò)規(guī)則和統(tǒng)計(jì)的方法,研究文本信息抽取的模型和算法,以進(jìn)一步提高模型的抽取性能,增強(qiáng)模型的適用能力,減少模型的訓(xùn)練對(duì)人工標(biāo)記文

2、本的依賴程度,提高模型主動(dòng)學(xué)習(xí)的能力,解決文本信息抽取中的一些關(guān)鍵問(wèn)題。本文的主要研究工作包括以下幾個(gè)方面: (1) 在分析基于頁(yè)面標(biāo)志信息和基于文本模式信息兩類算法的基礎(chǔ)上,提出了一種新的包裝器歸納學(xué)習(xí)算法。新算法綜合了上述兩類算法的優(yōu)點(diǎn),不但能利用頁(yè)面的標(biāo)志信息進(jìn)行信息定位,而且能利用文本的模式信息進(jìn)行信息抽取,并對(duì)抽取結(jié)果進(jìn)行必要的過(guò)濾,因而,新的算法具有更高的抽取精確度與更強(qiáng)的信息表達(dá)能力。 (2) 為了解決變化

3、的WEB頁(yè)面導(dǎo)致包裝器失效的問(wèn)題,使包裝器模型能自動(dòng)適用變化的WEB頁(yè)面的信息抽取。論文基于以下的觀察:盡管頁(yè)面有多種多樣的變化方式,但是許多重要的頁(yè)面特征信息在新頁(yè)面都得到了保存,例如文本模式信息、注釋信息和超級(jí)鏈接信息等。提出了一種基于頁(yè)面特征的包裝器平衡算法,新算法首先從包裝器正常工作時(shí)被收集起來(lái)的訓(xùn)練樣例中學(xué)習(xí)得到WEB頁(yè)面的模式信息、數(shù)據(jù)項(xiàng)注釋信息以及可能的超級(jí)鏈接信息等特征信息,然后充分利用這些特征信息在變化的WEB頁(yè)面中定

4、位目標(biāo)信息,以自動(dòng)修復(fù)失效的包裝器。對(duì)實(shí)際WEB站點(diǎn)信息抽取的實(shí)驗(yàn)表明,新算法能有效地維持包裝器的平衡。 (3) 提出了一種基于聚簇隱馬爾可夫模型的文本信息抽取算法。對(duì)于網(wǎng)上不同來(lái)源的格式不同的文本,在以往的抽取方法中,將所有的訓(xùn)練文本混合訓(xùn)練一個(gè)統(tǒng)一的隱馬爾可夫模型,一般難以得到較優(yōu)化的抽取模型,影響了抽取性能。因此,論文考慮將聚簇分析應(yīng)用到文本信息抽取中,首先,對(duì)聚簇分析中的K-平均方法進(jìn)行改進(jìn),以提高聚簇性能;然后,對(duì)訓(xùn)練

5、文本的Markov鏈模型進(jìn)行聚簇,用各個(gè)簇的文本訓(xùn)練出不同的抽取模型;最后,應(yīng)用各模型分別進(jìn)行文本信息抽取,并通過(guò)比較得到最優(yōu)的抽取結(jié)果。仿真實(shí)驗(yàn)結(jié)果表明,對(duì)不同來(lái)源的文本信息的抽取,新的抽取模型和算法具有良好的適用能力和更高抽取性能。 (4) 研究了基于隱馬爾可夫模型文本信息抽取中的信息熵模型。首先,考慮特征信息對(duì)提高文本信息抽取性能的作用,提出了一種基于最大熵隱馬爾可夫模型的文本信息抽取算法,該算法通過(guò)最大熵模型,將文本的上

6、下文特征信息和文本詞匯本身包含的特征信息加入到模型的訓(xùn)練和文本信息抽取中,提高了抽取性能;其次,為了解決從大段文本信息中抽取關(guān)鍵信息的問(wèn)題,將互信息模型應(yīng)用到基于隱馬爾可夫模型的文本信息抽取中,通過(guò)點(diǎn)互信息定量描述文本信息的隱馬爾可夫模型中非相鄰狀態(tài)之間的轉(zhuǎn)移概率,實(shí)現(xiàn)了對(duì)文本中關(guān)鍵信息的抽取,并得到了較好的抽取效果。 (5) 研究了文本信息抽取中的二階隱馬爾可夫模型。在一階隱馬爾可夫模型中,假設(shè)狀態(tài)的轉(zhuǎn)移概率和觀察值的輸出概率只依賴于

7、模型當(dāng)前的狀態(tài),一定程度制約了信息抽取的精確度。二階隱馬爾可夫模型合理地考慮了概率和模型歷史狀態(tài)的關(guān)聯(lián)性,對(duì)錯(cuò)誤信息的識(shí)別能力更強(qiáng)。論文在一階模型的ML(ML,MaximumLikelihood)算法的基礎(chǔ)上推導(dǎo)了二階模型的ML算法;提出了基于二階隱馬爾可夫模型的文本信息抽取算法;分析了二階隱馬爾可夫模型在提高信息抽取正確率上的有效性。仿真實(shí)驗(yàn)結(jié)果表明,新的算法比基于一階隱馬爾可夫模型的算法具有更高的抽取精確度。 (6) 研究了

8、結(jié)合最大熵模型和二階隱馬爾可夫模型的文本信息抽取方法。在基于二階隱馬爾可夫模型的文本信息抽取中,雖然提高了模型對(duì)錯(cuò)誤信息的識(shí)別能力,提高了信息抽取的正確率,但是信息抽取的召回率沒(méi)有提高,因此,在該方法中,通過(guò)最大熵模型,在基于二階隱馬爾可夫模型的文本信息抽取中加入文本的上下文特征信息,進(jìn)一步改善二階隱馬爾可夫模型的抽取性能,在進(jìn)一步提高文本信息抽取正確率的同時(shí)也提高了召回率。 (7) 提出了一種文本信息抽取的主動(dòng)學(xué)習(xí)算法。在只有

9、部分標(biāo)記訓(xùn)練文本的情況下,通過(guò)主動(dòng)學(xué)習(xí)算法,將最有價(jià)值的訓(xùn)練文本挑選出來(lái)進(jìn)行標(biāo)記。該算法能應(yīng)用到基于包裝器模型和基于隱馬爾可夫模型的文本信息抽取中,在不影響抽取性能的前提下,能有效降低模型的訓(xùn)練對(duì)已標(biāo)記訓(xùn)練文本的依賴程度,很大程度減少人工標(biāo)記訓(xùn)練文本的工作量。 總之,論文通過(guò)規(guī)則和統(tǒng)計(jì)的方法分別從上述各個(gè)方面對(duì)文本信息抽取的模型和算法進(jìn)行了深入研究。解決了文本信息抽取中存在的關(guān)鍵問(wèn)題,提高了文本信息抽取的精確度和召回率;增強(qiáng)了抽

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論