古農(nóng)學(xué)本體的半自動構(gòu)建及檢索研究.pdf_第1頁
已閱讀1頁,還剩155頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、近20年來,中國農(nóng)史文獻(xiàn)資料的研究已經(jīng)由傳統(tǒng)的手工整理方式逐漸轉(zhuǎn)向農(nóng)史信息資源的數(shù)字化整理和建設(shè),并借助于現(xiàn)代化的技術(shù)和手段來加強農(nóng)史信息資源的產(chǎn)生、組織、存取、傳播和利用,以便用戶更便捷地獲取農(nóng)史研究資料,促進(jìn)農(nóng)史研究的發(fā)展。從目前的現(xiàn)狀來看,農(nóng)史學(xué)科已經(jīng)擁有了一批數(shù)字化資源,這無疑促進(jìn)了農(nóng)業(yè)科技遺產(chǎn)的保護(hù)和傳播。然而從利用的角度來看,在農(nóng)史信息資源的組織和存取技術(shù)還有待提高,主要表現(xiàn)在缺乏有力的語義管理工具,檢索技術(shù)相對陳舊,計算機

2、僅把用戶的檢索關(guān)鍵詞當(dāng)作簡單的字符處理,因此,在農(nóng)史領(lǐng)域建立一種語義描述機制,使得計算機能夠具有語義理解能力,是提高農(nóng)史信息資源服務(wù)效果的有效手段。 本體作為一種能夠在語義和知識層次上描述信息系統(tǒng)的概念建模工具,自被提出以來就引起了國外眾多科研人員的關(guān)注,并在知識工程、數(shù)字圖書館、軟件復(fù)用、信息檢索和Web異構(gòu)信息的處理、語義Web等眾多領(lǐng)域得到了廣泛的應(yīng)用。本文將本體引入到農(nóng)史領(lǐng)域,嘗試構(gòu)建農(nóng)史領(lǐng)域本體作為農(nóng)史信息資源加工、組

3、織和利用中有力的語義工具來解決語義異構(gòu)問題,使得農(nóng)史領(lǐng)域概念能夠有著明確唯一的定義,在人和機器之間達(dá)成一種共識,促進(jìn)人機交流。 本文首先對農(nóng)史信息資源的組織模式進(jìn)行調(diào)查統(tǒng)計,分析目前農(nóng)史信息資源組織現(xiàn)狀,提出建立本體作為農(nóng)史學(xué)科的語義工具,是提高農(nóng)史信息資源管理和服務(wù)的有效手段,進(jìn)而結(jié)合情報學(xué)領(lǐng)域在編制分類表和敘詞表的技術(shù)和經(jīng)驗,借鑒知識工程領(lǐng)域在構(gòu)建專家知識庫中取得的成績以及機器學(xué)習(xí)技術(shù)和自然語言處理技術(shù)的成果,嘗試半自動地構(gòu)

4、建農(nóng)史領(lǐng)域本體,提高本體構(gòu)建的效率。最后,以該領(lǐng)域本體為基礎(chǔ),設(shè)計并開發(fā)了一個基于領(lǐng)域本體的語義檢索模型。 本文的研究內(nèi)容主要有以下幾個方面: (1)對農(nóng)史信息資源組織方式的調(diào)查分析隨著計算機技術(shù)的迅猛發(fā)展,農(nóng)史信息資源的組織方式已經(jīng)由傳統(tǒng)手工編制的目錄、索引,發(fā)展到了文獻(xiàn)數(shù)據(jù)庫、網(wǎng)站等高級組織方式。本文首先對目前農(nóng)史信息資源數(shù)字化組織現(xiàn)狀進(jìn)行調(diào)查與統(tǒng)計,目前的農(nóng)史信息資源組織主要有專題網(wǎng)站、專題數(shù)據(jù)庫和數(shù)字圖書館/數(shù)字

5、博物館三種類型,并對它們的分布進(jìn)行了統(tǒng)計分析,以便了解農(nóng)史信息資源建設(shè)現(xiàn)狀。 農(nóng)史信息資源服務(wù)的效果是體現(xiàn)農(nóng)史信息資源數(shù)字化建設(shè)的關(guān)鍵所在。本文在農(nóng)史信息資源調(diào)查的基礎(chǔ)上,從農(nóng)史信息資源的資源組織方式、檢索技術(shù)和信息服務(wù)類型三個層面對目前的農(nóng)史信息資源組織現(xiàn)狀進(jìn)行了總結(jié)和分析,指出其主要的不足是資源的組織中缺乏語義控制機制。本體作為一種能在語義和知識層次上描述信息系統(tǒng)的概念模型建模工具,可以對共享概念達(dá)成統(tǒng)一理解,為計算機提供一

6、種互操作語言。本文提出利用本體來加強農(nóng)史概念的形式化描述,并分析了領(lǐng)域本體在農(nóng)史信息資源組織中對于提升信息服務(wù)的作用。 (2)古農(nóng)學(xué)本體構(gòu)建模式研究本體的構(gòu)建是解決語義異構(gòu)問題的基礎(chǔ),因此實現(xiàn)語義Web需要大量的本體作為支撐。對于本體的構(gòu)建,目前主要是手工構(gòu)建方法和工具的研究。手工構(gòu)建本體費時費力、進(jìn)展緩慢且成本高昂,這也是本體構(gòu)建無法走出實驗室的原因之一。機器學(xué)習(xí)等文本自動化處理技術(shù)為本體的自動構(gòu)建奠定了基礎(chǔ)。從長期的發(fā)展趨勢

7、看,自動構(gòu)建本體是未來的發(fā)展方向,但是在目前技術(shù)尚未成熟,機器學(xué)習(xí)到的概念關(guān)系還不夠精細(xì)和準(zhǔn)確。因此,從本體構(gòu)建的可行性角度考慮,本文采用人機協(xié)作的半自動構(gòu)建模式構(gòu)建古農(nóng)學(xué)本體。在前人構(gòu)建領(lǐng)域本體方法論的基礎(chǔ)上,結(jié)合敘詞表的編制模式,由專業(yè)人員通過對古代農(nóng)學(xué)領(lǐng)域概念關(guān)系分析給出領(lǐng)域的上層知識模式,利用機器學(xué)習(xí)技術(shù)從領(lǐng)域語料中學(xué)習(xí)概念關(guān)系,將專業(yè)人員的自頂向下和機器學(xué)習(xí)的自底向上的結(jié)果結(jié)合起來。 (3)古農(nóng)學(xué)本體半自動構(gòu)建技術(shù)研究

8、本研究嘗試綜合運用多種技術(shù)方法用于領(lǐng)域關(guān)系的發(fā)現(xiàn)和識別,初步實現(xiàn)領(lǐng)域概念的獲取、等級關(guān)系的識別以及領(lǐng)域概念關(guān)系的發(fā)現(xiàn)和本體的形式化描述。 ①古農(nóng)學(xué)領(lǐng)域概念的自動獲取。采用基于N-Gram的無詞典分詞方法從古農(nóng)學(xué)研究論文中獲取領(lǐng)域候選概念,同時根據(jù)文獻(xiàn)保障原則利用文本自動主題標(biāo)引方法對候選概念進(jìn)行篩選,以獲得領(lǐng)域的核心概念。 ②古農(nóng)學(xué)本體領(lǐng)域等級關(guān)系的建立。根據(jù)專業(yè)人員給出的古農(nóng)學(xué)領(lǐng)域上層模式,結(jié)合現(xiàn)有的領(lǐng)域相關(guān)的分類表和

9、主題詞表的分類體系,以保證構(gòu)建的領(lǐng)域本體具有通用性和良好的邏輯基礎(chǔ),同時利用改進(jìn)的層次聚類法從古農(nóng)學(xué)文本語料中識別等級關(guān)系,對原有的分類體系進(jìn)行擴充和更新。 ③古農(nóng)學(xué)領(lǐng)域概念屬性關(guān)系的建立。采用基于關(guān)聯(lián)規(guī)則挖掘和基于自然語言處理兩種方法相結(jié)合的方式從古農(nóng)學(xué)研究論文中獲取領(lǐng)域概念的屬性關(guān)系,利用支持度和置信度等度量方法從文本語料中獲取最相關(guān)概念,利用漢語的句法特點從文本中抽取主謂賓關(guān)系,獲取概念屬性關(guān)系。這樣可以減少大規(guī)模統(tǒng)計方法

10、缺乏必要語義邏輯基礎(chǔ)的不足,也可以降低概念間語義關(guān)系分析過分依賴復(fù)雜的語言處理模型的弊端。另外,采用基于模式匹配的同義詞識別方法為概念獲取同義詞屬性。 ④古農(nóng)學(xué)本體的形式化。本體的形式化處理,可以對概念關(guān)系按照既定的規(guī)則進(jìn)行批處理并自動地生成形式化的本體,提高古農(nóng)學(xué)本體生成的效率??稍谝呀?jīng)識別出各種概念關(guān)系的基礎(chǔ)上自動完成古農(nóng)學(xué)本體的形式化文件的生成。 (4)基于古農(nóng)學(xué)本體的語義檢索機制研究本文設(shè)計和開發(fā)了一個基于古農(nóng)學(xué)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論