百科全書文本的段落劃分研究.pdf_第1頁
已閱讀1頁,還剩137頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、社會快速發(fā)展,各種知識爆發(fā)式增加。知識的自動獲取,特別是從自然語言文本中自動獲取知識成為重要的研究課題,這一課題既有極大的應用需求,又有理論上的挑戰(zhàn)性。 百科全書文本中包含著集中、系統(tǒng)、全面的知識,是比較理想的文本知識獲取的來源。百科全書往往以學科體系分卷。雖然都是說明文,但同一學科卷目中往往包含彼此差異很大,說明很不相同的知識的條目,這給自動提取知識造成了很大困難。本文的工作越過學科卷目分類,從條目的題材性質(zhì)出發(fā),以段落劃分的

2、形式,從百科全書文本中獲取知識。 題材是不同于學科卷目的另一種條目分類方式,如人物題材、行政區(qū)劃題材、生物物種題材等。同一題材的條目文本所包含的知識有較強的一致性。從文本段落的角度看,同題材的條目文本有這樣的特點: (1)每個題材有題材相關的若干內(nèi)容成份,這些內(nèi)容成份是題材涉及到的若干方面的知識。在條目文本中,內(nèi)容成份表現(xiàn)為文本段落。 (2)內(nèi)容成份在條目文本中的分布有順序規(guī)律,并且大部分內(nèi)容成份有自身的詞匯分布

3、。 上述特點體現(xiàn)在同題材條目的整體條目文本集合上,因此同題材條目文本的段落結構與該題材的條目文本集合的整體性質(zhì)有關。 本文的具體研究內(nèi)容是百科全書同題材條目文本的段落劃分,即在同題材的條目文本上根據(jù)題材的內(nèi)容成份進行段落劃分,一個段落對應一個內(nèi)容成份,內(nèi)容成份的變化之處即為段落的切分點。劃分的任務包括確定段落的邊界,以及每個段落對應的內(nèi)容成份。 在應用層面,通過段落劃分,可以提供段落一級的百科全書知識的直接檢索,

4、另外也為段落內(nèi)部具體知識項目的挖掘提供基礎。 本文的工作包括兩個層面。第一個層面是構建面向百科全書同題材條目文本段落劃分的詞匯語義知識庫。通過知識庫中的語義知識可以獲得更集中、更可靠的詞匯統(tǒng)計數(shù)據(jù),另外這個知識庫也可以作為結合人的觀察與知識的基礎平臺。第二個層面是在詞匯語義知識庫的基礎上,以有指導及無指導兩種機器學習方式研究同題材條目文本的段落劃分方法。有指導的劃分方法方面的主要工作是研究新的段落劃分方法,即基于熵最小化的段落劃

5、分方法,以及發(fā)掘更多有效的劃分依據(jù),并以適當模型結合使用。無指導方式包括同題材條目文本段落結構的自動發(fā)現(xiàn)。這個工作面對的是這樣一個問題:在給定的同題材條目文本集合上,自動發(fā)現(xiàn)與同題材條目文本的特點相一致的段落結構,并獲得相應的段落劃分。段落結構是在同題材的條目文本集合上獲得的,在目前的研究中,與文本集合的整體性質(zhì)有關的段落劃分還沒有引起足夠重視,因此本文的這部分研究可作為這方面有益的補充。本文的主要工作和創(chuàng)新性成果包括以下幾個方面:

6、 (1) 面向同題材條目文本段落劃分的詞匯語義知識庫的構建。這個知識庫有兩個方面的意義。一是由于大量內(nèi)容詞頻次過低,僅依靠詞匯的原形難以獲得有效的統(tǒng)計依據(jù)。將詞匯原形代之以語義屬性,可以獲得更集中、更可靠的統(tǒng)計數(shù)據(jù)。二是通過構建詞匯知識庫,可以將人的觀察與知識結合進劃分算法,從而使劃分算法可以憑借的依據(jù)更為豐富、可靠。本文在考察了《同義詞詞林》等現(xiàn)有詞匯語義資源的基礎上,構建了適合于同題材條目文本段落劃分的詞匯語義知識庫。目前這個知

7、識庫有兩個層面的詞匯語義知識。一是領域?qū)C托g語類語義信息的標注。首先將領域?qū)C托g語方面的語義屬性組織為樹狀知識體系,之后按此體系標注題材文本中的相應詞匯。這個層次的詞匯語義知識獨立于具體題材。二是具體題材及其內(nèi)容成份的主題詞的標注,以及主題詞對內(nèi)容成份的抽象程度的區(qū)分與標注。這個層次的詞匯語義知識與具體題材及內(nèi)容成份直接關聯(lián)。實驗表明這個庫提供的詞匯語義知識非常有效。 (2) 提出了基于熵最小化的段落劃分方法。這個劃分方法的

8、原理是文本單元的順序聚類,聚類類別對應于段落。獲得的類別由連續(xù)若干個文本單元構成,這些類別在熵的度量下,在一個條目文本的范圍內(nèi)與別的類盡可能不同,并且類內(nèi)盡可能一致。這是在聚類的角度下全局切分優(yōu)化的結果,沒有Hidden Markov Model(隱馬爾科夫模型,HMM)段落劃分方法的段落類別重復的問題。這個方法可以通過控制“段內(nèi)不確定程度”與“段間重疊程度”的相對重要性,可以獲得由“細”到“粗”的、段落個數(shù)可以調(diào)節(jié)的劃分結果,因此比較

9、靈活。在算法的具體實現(xiàn)中使用了經(jīng)過參數(shù)調(diào)整后的HMM模型狀態(tài)后驗分布,獲得的性能優(yōu)于基于HMM的劃分方法。 (3) 發(fā)掘了具有段落整體特性的劃分依據(jù),以及題材相關的提示性劃分依據(jù),并以semi-Conditional Random Field(半條件隨機域,semi-CRF)模型結合使用。Semi-CRF模型是分辨型概率模型,便于使用各種提示性依據(jù)(clue)。另外這個模型是Conditional Random Field(條件

10、隨機域,CRF)模型在段落方面的擴展,可以使用具有段落整體特性的依據(jù)。本文根據(jù)這個模型,在具體題材的段落劃分中,將通用依據(jù)表示為經(jīng)過整理的HMM模型的狀態(tài)后驗分布的基礎上,進一步發(fā)現(xiàn)并使用了具有段落整體性的基于主題詞的段落開始特征,以及針對特定段落類別的提示性特征。這些依據(jù)都發(fā)揮了效果,劃分性能優(yōu)于HMM模型和CRF模型的段落劃分方法,以及基于熵最小化的段落劃分方法。 (4) 提出了一種同題材條目文本段落結構自動發(fā)現(xiàn)方法。本文的

11、方法首先獲取了詞匯的鄰接關系在文本單元層面上的分布數(shù)據(jù),之后使用aspect model等因子分解技術獲取其中若干主要因子,這些主要因子相當于自動發(fā)現(xiàn)的抽象內(nèi)容成份。通過aspect model的對數(shù)似然值(log likelihood)和因子在條目文本中順序分布的互信息確定適當?shù)囊蜃觽€數(shù)的范圍。這個方法的特點是從詞匯在文本單元層面的順序性的角度,而不是從文本單元之間的相似性角度發(fā)現(xiàn)段落結構,利用了同題材條目文本中內(nèi)容成份的順序規(guī)律,而

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論