百科全書文本的段落劃分研究.pdf_第1頁
已閱讀1頁,還剩137頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、社會快速發(fā)展,各種知識爆發(fā)式增加。知識的自動獲取,特別是從自然語言文本中自動獲取知識成為重要的研究課題,這一課題既有極大的應(yīng)用需求,又有理論上的挑戰(zhàn)性。 百科全書文本中包含著集中、系統(tǒng)、全面的知識,是比較理想的文本知識獲取的來源。百科全書往往以學(xué)科體系分卷。雖然都是說明文,但同一學(xué)科卷目中往往包含彼此差異很大,說明很不相同的知識的條目,這給自動提取知識造成了很大困難。本文的工作越過學(xué)科卷目分類,從條目的題材性質(zhì)出發(fā),以段落劃分的

2、形式,從百科全書文本中獲取知識。 題材是不同于學(xué)科卷目的另一種條目分類方式,如人物題材、行政區(qū)劃題材、生物物種題材等。同一題材的條目文本所包含的知識有較強(qiáng)的一致性。從文本段落的角度看,同題材的條目文本有這樣的特點(diǎn): (1)每個題材有題材相關(guān)的若干內(nèi)容成份,這些內(nèi)容成份是題材涉及到的若干方面的知識。在條目文本中,內(nèi)容成份表現(xiàn)為文本段落。 (2)內(nèi)容成份在條目文本中的分布有順序規(guī)律,并且大部分內(nèi)容成份有自身的詞匯分布

3、。 上述特點(diǎn)體現(xiàn)在同題材條目的整體條目文本集合上,因此同題材條目文本的段落結(jié)構(gòu)與該題材的條目文本集合的整體性質(zhì)有關(guān)。 本文的具體研究內(nèi)容是百科全書同題材條目文本的段落劃分,即在同題材的條目文本上根據(jù)題材的內(nèi)容成份進(jìn)行段落劃分,一個段落對應(yīng)一個內(nèi)容成份,內(nèi)容成份的變化之處即為段落的切分點(diǎn)。劃分的任務(wù)包括確定段落的邊界,以及每個段落對應(yīng)的內(nèi)容成份。 在應(yīng)用層面,通過段落劃分,可以提供段落一級的百科全書知識的直接檢索,

4、另外也為段落內(nèi)部具體知識項(xiàng)目的挖掘提供基礎(chǔ)。 本文的工作包括兩個層面。第一個層面是構(gòu)建面向百科全書同題材條目文本段落劃分的詞匯語義知識庫。通過知識庫中的語義知識可以獲得更集中、更可靠的詞匯統(tǒng)計數(shù)據(jù),另外這個知識庫也可以作為結(jié)合人的觀察與知識的基礎(chǔ)平臺。第二個層面是在詞匯語義知識庫的基礎(chǔ)上,以有指導(dǎo)及無指導(dǎo)兩種機(jī)器學(xué)習(xí)方式研究同題材條目文本的段落劃分方法。有指導(dǎo)的劃分方法方面的主要工作是研究新的段落劃分方法,即基于熵最小化的段落劃

5、分方法,以及發(fā)掘更多有效的劃分依據(jù),并以適當(dāng)模型結(jié)合使用。無指導(dǎo)方式包括同題材條目文本段落結(jié)構(gòu)的自動發(fā)現(xiàn)。這個工作面對的是這樣一個問題:在給定的同題材條目文本集合上,自動發(fā)現(xiàn)與同題材條目文本的特點(diǎn)相一致的段落結(jié)構(gòu),并獲得相應(yīng)的段落劃分。段落結(jié)構(gòu)是在同題材的條目文本集合上獲得的,在目前的研究中,與文本集合的整體性質(zhì)有關(guān)的段落劃分還沒有引起足夠重視,因此本文的這部分研究可作為這方面有益的補(bǔ)充。本文的主要工作和創(chuàng)新性成果包括以下幾個方面:

6、 (1) 面向同題材條目文本段落劃分的詞匯語義知識庫的構(gòu)建。這個知識庫有兩個方面的意義。一是由于大量內(nèi)容詞頻次過低,僅依靠詞匯的原形難以獲得有效的統(tǒng)計依據(jù)。將詞匯原形代之以語義屬性,可以獲得更集中、更可靠的統(tǒng)計數(shù)據(jù)。二是通過構(gòu)建詞匯知識庫,可以將人的觀察與知識結(jié)合進(jìn)劃分算法,從而使劃分算法可以憑借的依據(jù)更為豐富、可靠。本文在考察了《同義詞詞林》等現(xiàn)有詞匯語義資源的基礎(chǔ)上,構(gòu)建了適合于同題材條目文本段落劃分的詞匯語義知識庫。目前這個知

7、識庫有兩個層面的詞匯語義知識。一是領(lǐng)域?qū)C托g(shù)語類語義信息的標(biāo)注。首先將領(lǐng)域?qū)C托g(shù)語方面的語義屬性組織為樹狀知識體系,之后按此體系標(biāo)注題材文本中的相應(yīng)詞匯。這個層次的詞匯語義知識獨(dú)立于具體題材。二是具體題材及其內(nèi)容成份的主題詞的標(biāo)注,以及主題詞對內(nèi)容成份的抽象程度的區(qū)分與標(biāo)注。這個層次的詞匯語義知識與具體題材及內(nèi)容成份直接關(guān)聯(lián)。實(shí)驗(yàn)表明這個庫提供的詞匯語義知識非常有效。 (2) 提出了基于熵最小化的段落劃分方法。這個劃分方法的

8、原理是文本單元的順序聚類,聚類類別對應(yīng)于段落。獲得的類別由連續(xù)若干個文本單元構(gòu)成,這些類別在熵的度量下,在一個條目文本的范圍內(nèi)與別的類盡可能不同,并且類內(nèi)盡可能一致。這是在聚類的角度下全局切分優(yōu)化的結(jié)果,沒有Hidden Markov Model(隱馬爾科夫模型,HMM)段落劃分方法的段落類別重復(fù)的問題。這個方法可以通過控制“段內(nèi)不確定程度”與“段間重疊程度”的相對重要性,可以獲得由“細(xì)”到“粗”的、段落個數(shù)可以調(diào)節(jié)的劃分結(jié)果,因此比較

9、靈活。在算法的具體實(shí)現(xiàn)中使用了經(jīng)過參數(shù)調(diào)整后的HMM模型狀態(tài)后驗(yàn)分布,獲得的性能優(yōu)于基于HMM的劃分方法。 (3) 發(fā)掘了具有段落整體特性的劃分依據(jù),以及題材相關(guān)的提示性劃分依據(jù),并以semi-Conditional Random Field(半條件隨機(jī)域,semi-CRF)模型結(jié)合使用。Semi-CRF模型是分辨型概率模型,便于使用各種提示性依據(jù)(clue)。另外這個模型是Conditional Random Field(條件

10、隨機(jī)域,CRF)模型在段落方面的擴(kuò)展,可以使用具有段落整體特性的依據(jù)。本文根據(jù)這個模型,在具體題材的段落劃分中,將通用依據(jù)表示為經(jīng)過整理的HMM模型的狀態(tài)后驗(yàn)分布的基礎(chǔ)上,進(jìn)一步發(fā)現(xiàn)并使用了具有段落整體性的基于主題詞的段落開始特征,以及針對特定段落類別的提示性特征。這些依據(jù)都發(fā)揮了效果,劃分性能優(yōu)于HMM模型和CRF模型的段落劃分方法,以及基于熵最小化的段落劃分方法。 (4) 提出了一種同題材條目文本段落結(jié)構(gòu)自動發(fā)現(xiàn)方法。本文的

11、方法首先獲取了詞匯的鄰接關(guān)系在文本單元層面上的分布數(shù)據(jù),之后使用aspect model等因子分解技術(shù)獲取其中若干主要因子,這些主要因子相當(dāng)于自動發(fā)現(xiàn)的抽象內(nèi)容成份。通過aspect model的對數(shù)似然值(log likelihood)和因子在條目文本中順序分布的互信息確定適當(dāng)?shù)囊蜃觽€數(shù)的范圍。這個方法的特點(diǎn)是從詞匯在文本單元層面的順序性的角度,而不是從文本單元之間的相似性角度發(fā)現(xiàn)段落結(jié)構(gòu),利用了同題材條目文本中內(nèi)容成份的順序規(guī)律,而

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論