基于本體的信息抽取、整合的關(guān)鍵性技術(shù)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩136頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、信息爆炸時(shí)代需要一個(gè)能在海量信息中高效篩選信息的工具,基于本體的信息整合就是解決這一難題的出路。信息系統(tǒng)之間往往由于結(jié)構(gòu)異構(gòu)、語(yǔ)法異構(gòu)、系統(tǒng)異構(gòu)、語(yǔ)義異構(gòu)等原因,使得系統(tǒng)間的信息資源難以共享和重用。解決上述問(wèn)題只能是引入本體,才能實(shí)現(xiàn)信息整合。
  基于本體的信息抽取、整合系統(tǒng)主要有四大組成部分:類庫(kù)、知識(shí)庫(kù)、處理子系統(tǒng)、數(shù)據(jù)黑板。類庫(kù)是本系統(tǒng)處理的基礎(chǔ),它負(fù)責(zé)提供處理需要的各種基本操作;知識(shí)庫(kù)包括詞典、文本分類知識(shí)庫(kù)、對(duì)象判定知

2、識(shí)庫(kù)、信息抽取知識(shí)庫(kù),它是系統(tǒng)進(jìn)行各項(xiàng)處理的基礎(chǔ);數(shù)據(jù)黑板是本系統(tǒng)的所有分析數(shù)據(jù)的匯總,為系統(tǒng)的各項(xiàng)處理提供服務(wù);處理子系統(tǒng)完成系統(tǒng)的各項(xiàng)功能,它由依次相連的七個(gè)模塊組成:分詞、文本分類、對(duì)象判定、查元記憶、信息抽取、信息整合、信息存儲(chǔ)。
  本體是知識(shí)的概念模型。構(gòu)建本體的目的是為了知識(shí)的表示、共享和重用。在面向自然語(yǔ)言理解的各種知識(shí)庫(kù)的建設(shè)過(guò)程中,本體論都是無(wú)法回避的。四項(xiàng)著名的本體論項(xiàng)目Cyc、WordNet、知網(wǎng)、HNC為

3、自然語(yǔ)言理解和機(jī)器翻譯等方面的研究提供了寶貴的資源。OWL作為W3C推薦的Web本體標(biāo)準(zhǔn)語(yǔ)言,具有強(qiáng)大的語(yǔ)義表達(dá)能力,在人工智能領(lǐng)域得到廣泛應(yīng)用。本文嘗試構(gòu)建了軍備情報(bào)這一領(lǐng)域知識(shí)的本體。
  漢語(yǔ)自動(dòng)分詞面臨著兩大難題:歧義字段和未登錄詞。這兩者的相互糾纏使分詞系統(tǒng)所面臨的形勢(shì)更加復(fù)雜化。漢語(yǔ)詞典的快速查詢是整個(gè)處理系統(tǒng)效率的關(guān)鍵所在?;谌龜?shù)組 Trie索引樹(shù)的詞典查詢機(jī)制由于采用了由短詞及長(zhǎng)詞的確定性工作方式,避免了整詞二分

4、查詢機(jī)制中不必要的多次試探性查詢,效率極高。本文開(kāi)發(fā)的基于三數(shù)組Trie索引樹(shù)的分詞算法處理效率也極高。
  基于機(jī)器學(xué)習(xí)的文本分類系統(tǒng)分為兩個(gè)相對(duì)獨(dú)立的模塊:訓(xùn)練模塊和分類模塊。訓(xùn)練模塊是利用訓(xùn)練文本集完成分類規(guī)則的獲得,從而建立起分類器;分類模塊則在分類器建立后利用分類器對(duì)測(cè)試文本進(jìn)行分類處理。文本表示主要采用向量空間模型,而向量的維數(shù)巨大,需要對(duì)文本進(jìn)行特征篩選。本文綜合利用文檔頻次、詞頻和互信息來(lái)構(gòu)造評(píng)估函數(shù)進(jìn)行特征篩選,

5、并使用K-近鄰算法對(duì)文本進(jìn)行分類,實(shí)驗(yàn)結(jié)果令人滿意。
  對(duì)象判定技術(shù)以命名實(shí)體識(shí)別為基礎(chǔ),比較文章內(nèi)的所有命名實(shí)體,從而篩選出最主要的一個(gè)或幾個(gè)命名實(shí)體。人們判定文章的討論對(duì)象的主要依據(jù)有:標(biāo)題中的、介引句中的、每段首句中的命名實(shí)體。本文的對(duì)象判定系統(tǒng)采用規(guī)則和統(tǒng)計(jì)相結(jié)合的方法,來(lái)模擬人們?nèi)粘i喿x中的智力活動(dòng),實(shí)現(xiàn)了對(duì)象判定。但目前該系統(tǒng)尚不具備對(duì)多討論對(duì)象的文章進(jìn)行對(duì)象判定能力。
  信息抽取系統(tǒng)的主要功能是從文本中抽取

6、出特定的信息。本文的基于關(guān)鍵詞驅(qū)動(dòng)的信息抽取系統(tǒng)由知識(shí)庫(kù)、處理程序、數(shù)據(jù)黑板三部分構(gòu)成。其本質(zhì)上是基于規(guī)則的信息抽取系統(tǒng),而信息抽取規(guī)則是一種產(chǎn)生式規(guī)則:條件→操作,即如果句法語(yǔ)義模式匹配成功,則從句中抽取相應(yīng)的信息。筆者設(shè)計(jì)出了能滿足信息抽取實(shí)際需要的信息抽取規(guī)則描述語(yǔ)言,保證了系統(tǒng)具有較好的可移植性。本系統(tǒng)采用絕對(duì)定位和相對(duì)定位相結(jié)合的方法來(lái)實(shí)現(xiàn)測(cè)試位置的推移,滿足了測(cè)試規(guī)則的需要。
  基于本體的信息整合采用的是整體-局部法

7、,先構(gòu)造領(lǐng)域知識(shí)的全局本體,并以對(duì)象為中心組織信息,然后再抽取、整合信息,因而在技術(shù)上就表現(xiàn)為將同一對(duì)象的新信息整合進(jìn)舊信息的過(guò)程,并最終演變成對(duì)同一對(duì)象的同一屬性值進(jìn)行整合的過(guò)程。對(duì)象的屬性值可以分為兩類:數(shù)量結(jié)構(gòu)和非數(shù)量結(jié)構(gòu)。數(shù)量結(jié)構(gòu)的屬性值在整合時(shí),首先需要進(jìn)行數(shù)和量的標(biāo)準(zhǔn)化。目前,非數(shù)量結(jié)構(gòu)的屬性值在整合時(shí)只能采用機(jī)械的字符串匹配方式。
  最后,本文綜合集成以上的各項(xiàng)技術(shù),開(kāi)發(fā)出了一個(gè)能在一定程度上真正在語(yǔ)義層面上實(shí)現(xiàn)信

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論