基于rough集理論的本體相似性技術研究_第1頁
已閱讀1頁,還剩66頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、<p><b>  華東交通大學</b></p><p><b>  碩士學位論文</b></p><p>  基于ROUGH集理論的本體相似性技術研究</p><p><b>  姓名:陳(王樂)</b></p><p><b>  申請學位級別:碩士&l

2、t;/b></p><p>  專業(yè):計算機應用技術</p><p><b>  指導教師:黃兆華</b></p><p><b>  20080418</b></p><p><b>  摘要</b></p><p>  基于 Rough 集理論

3、的本體相似性技術研究</p><p><b>  摘要</b></p><p>  本體最初是一個哲學概念,用來描述事物的本質,本體是概念、屬性和關系的集合。</p><p>  它除了應用于語義 Web 的信息表示之外,還被廣泛地應用于智能信息集成、協(xié)作信息</p><p>  系統(tǒng)、信息檢索、電子商務和知識管理等領域

4、。</p><p>  本體的應用領域越來越多,其應用的主要目的是為了知識的共享和重用。由于本體</p><p>  自身的分散性,不同的用戶可以構造不同的本體。要想實現(xiàn)不同本體間的互操作就必須</p><p>  解決本體間的異構問題,一般都用本體的映射來解決本體間的異構問題。相似性提取是</p><p>  本體映射的一個重要步驟,它主要

5、是進行相似度的計算。</p><p>  本體相似度的計算廣泛應用于信息檢索、機器翻譯、自動問答系統(tǒng)等領域,是一個</p><p>  非常基礎而關鍵的問題,長期以來一直是人們研究的熱點和難點。由于各個本體提供者</p><p>  的信息源是異構分布自治的,因此在構建共享平臺的過程中,重點要解決的就是這些數</p><p>  據源之間的本

6、體異構問題。本體異構包括由不一致數據和對相同數據的多個解釋造成的</p><p>  數據級異構和由數據的邏輯組織不相似所造成的模式級異構。本文通過本體相似度計算</p><p>  技術來解決本體異構問題,難點在于本體的屬性繁多,本體間關系復雜。</p><p>  本文研究了本體理論和 Rough 集理論,重點介紹了 Rough 集理論中的屬性約簡。</p

7、><p>  通過對 Rough 集理論和本體的研究,在理論上確立了基于 Rough 集理論的本體相似性</p><p>  技術研究的方案,改進了現(xiàn)有的基于屬性的本體相似性度量方法,使用了一種基于二進</p><p>  制的屬性約簡方法來減少工作量。提出了 RSONSA 算法用于計算本體相似度。系統(tǒng)采</p><p>  用七步法構建旅游領域

8、本體,實現(xiàn)了實驗原型,通過對系統(tǒng)應用效果的定量分析,驗證</p><p>  了 RSONSA 算法的效果和性能。</p><p>  關鍵詞:本體,Rough 集,相似性,屬性約簡</p><p><b>  I</b></p><p><b>  Abstract</b></p>

9、<p>  RESEARCH ON ONTOLOGY SIMILAR TECHNOLOGY</p><p>  BASED ON ROUGH SET THEORY</p><p><b>  ABSTRACT</b></p><p>  Ontology is originally a philosophical concept, u

10、sed to describe the essence of things,</p><p>  ontology is a collection of concepts and attributes and relations. Apart from the Semantic Web</p><p>  application to express information, it was

11、 also widely used in intelligent information</p><p>  integration, collaboration information systems, information retrieval, e-commerce and</p><p>  knowledge management, and other fields.</p

12、><p>  Areas of Ontology application is more and more, Ontology application is primarily for</p><p>  sharing and reusing knowledge. Since the dispersion of their own body, different users can</

13、p><p>  construct different Ontology. In order to operate different Ontologies, it must solve the</p><p>  problem of heterogeneous between ontologies.we generally used Ontology mapping between<

14、/p><p>  heterogeneous ontology to solve the problem. Extraction of Ontology similarity is an</p><p>  important step of Ontology mapping, it is mainly the calculation of similarity</p><

15、p>  The calculation of Ontology similarity widely used in information retrieval, machine</p><p>  translation, and automatic question answering systems, and other fields, it is a very basis and</p>

16、<p>  key issue, it has been on the hot and difficult problem for a long time. Since information</p><p>  source of provider of the ontology is different, the focus is to resolve ontology heterogeneous

17、</p><p>  between the source of data in the process of building shared platform. The difference of</p><p>  Ontology construction include data heterogeneous from the inconsistencies of the data

18、and</p><p>  some explaination of same data, the pattern heterogeneous from the different of the logic</p><p>  organizations of data. The article solves the problem of heterogeneous ontology by

19、 the</p><p>  technology of computing Ontology similarity, the difficult issue is that Ontologies have many</p><p>  attribute and complex relationship.</p><p>  This paper studies

20、the Ontological Theory and Rough Set Theory, the focus is the</p><p>  introduction on Rough Set Theory of attribute reduction. Through the research of Rough Set</p><p>  Theory and ontology, we

21、 establish programme of Research on Ontology similar technology</p><p>  based on Rough Set Ontology and improve the existing Ontology similarity measurement</p><p>  method based on properties

22、of Ontology, we use a new method to reduce the workload which</p><p>  reduce properties by the use of binary Reduction, and provide RSONSA Algorithm to</p><p>  calculate the Ontology similar.

23、The system construct ontology of the field of tourism by a</p><p>  seven-step method, achieving an experimental prototype of the system. Through the</p><p>  Application of quantitative analysi

24、s, we proved the effect of RSONSA algorithm.</p><p>  Keyword: Ontology, Rough Set, Similary, Attribute Reduction</p><p><b>  II</b></p><p><b>  獨創(chuàng)性聲明</b><

25、;/p><p>  本人鄭重聲明:所呈交的學位論文是我個人在導師指導下進行的研究工作及取得的</p><p>  研究成果。盡我所知,除了文中特別加以標注和致謝的地方外,論文中不包含其他人已</p><p>  經發(fā)表和撰寫的研究成果,也不包含為獲得華東交通大學或其他教育機構的學位或證書</p><p>  所使用過的材料。與我一同工作的同志對本

26、研究所做的任何貢獻均已在論文中作了明確</p><p>  的說明并表示了謝意。</p><p>  本人簽名_______________日期____________</p><p>  關于論文使用授權的說明</p><p>  本人完全了解華東交通大學有關保留、使用學位論文的規(guī)定,即:學校有權保留送</p><p&g

27、t;  交論文的復印件,允許論文被查閱和借閱。學??梢怨颊撐牡娜炕虿糠謨热?,可以</p><p>  采用影印、縮印或其他復制手段保存論文。</p><p>  保密的論文在解密后遵守此規(guī)定,本論文無保密內容。</p><p>  本人簽名____________導師簽名__________日期___________</p><p>&l

28、t;b>  第一章 緒論</b></p><p><b>  第一章 緒論</b></p><p>  1.1 問題的提出及研究的意義</p><p>  1.1.1 問題的提出</p><p>  Internet作為一種分布式開放互連的信息系統(tǒng),從出現(xiàn)的那一刻起,就開始改變人們</p>

29、<p>  獲取信息及應用服務的方式,如信息檢索、電子商務、遠程教育、數字圖書館等。WWW</p><p>  通過一系列標實現(xiàn)不同層次上的信息交互,使用TCP/IP 協(xié)議保證線路傳輸數據的準確</p><p>  性,使用HTTP協(xié)議獲取超文本。從Web技術發(fā)展過程看,可將Web劃分為三代[1],即</p><p>  第一代(90年代后期至今):以H

30、TML為標志,為了展示數據內容,而不是描述數</p><p>  據內容本身,其實現(xiàn)了表現(xiàn)形式與文檔位置的分離。Web只是一個針對人閱讀的發(fā)布平</p><p>  臺,由一系列的超文本鏈接而成;</p><p>  第二代(90年代后期至今):以XML為標志,用戶可以根據需要制定能夠反映數據</p><p>  內容的標簽,實現(xiàn)了對文檔的有

31、效管理,即文檔結構與表現(xiàn)形式的分離。XML以及相關</p><p>  技術的出現(xiàn)使傳統(tǒng)萬維網上的信息內容從面向人瀏覽到面向機器自動處理邁出了重要</p><p><b>  一步;</b></p><p>  第三代:以RDF(S)、OWL為標志,它將實現(xiàn)文檔含義與文檔結構的分離作為目</p><p>  標,這種含義

32、可以被共享,并且可以被機器處理,它將提供諸如信息代理、搜索代理、</p><p>  信息過濾等智能服務,即語義Web。</p><p>  當前的第二代Web主要采用靜態(tài)HTML頁面, 或者動態(tài)產生HTML頁面的方式來發(fā)</p><p>  布信息。通常HTML頁面中只包含有格式和內容兩方面的信息, 缺少描述內容的元數據。</p><p>

33、  HTML 語言的這種特點決定了萬維網上信息內容很難被機器所理解, 從而制約了一些</p><p>  需要對萬維網上海量數據進行自動化處理應用的開發(fā)[2]。比如在信息查找方面,高速增</p><p>  長的海量信息一方面為人們提供了大量的信息,另一方面也為準確找到所需信息設置了</p><p>  障礙,可能會出現(xiàn)大量冗余信息。究其原因在于,目前Web上的數據

34、僅是計算機可讀的,</p><p>  搜索引擎仍不能很好的理解人的查詢請求。目前常見的查詢策略是,將用戶的查詢請求</p><p>  分解成若干關鍵字,根據這些關鍵字計算Web文檔跟用戶請求的匹配程度,從而挑出若</p><p>  干匹配的文檔,簡單的匹配不能解決同名異義和異名同義問題。</p><p>  語義萬維網(Semantic

35、 Web)[3] 正是針對這一問題而提出來的。建立語義Web的目的</p><p>  是為了使計算機能夠簡單“理解”分布在網上的內容,主動獲取網上的內容,在簡單“理解”</p><p>  網上信息的基礎上,更好地處理、利用這些知識。語義Web的基礎是對網上內容的描述,</p><p>  它的語義理論基礎是描述邏輯。本體(Ontology)是語義Web描述邏輯的

36、具體實現(xiàn),它</p><p>  用來描述分布在網上異構的內容,領域相關的內容可以擁有本領域特殊的本體。在語義</p><p>  Web上,任何內容都是用本體來描述的。語義Web上每個文檔都是一個本體,這些文檔</p><p><b>  1</b></p><p><b>  第一章 緒論</b>

37、;</p><p>  可以構造成大的本體,而在這些文檔內部,又可以拆分成小的本體。在語義Web中可以</p><p>  用一個或者一族本體對某個領域的知識進行歸納 ,這稱為領域本體 [4],例如對 Web</p><p>  Services進行描述的本體等。計算機之間通過對本體的理解來交流領域之間的信息;而</p><p>  在領域內

38、部,多數文檔可以采用繼承自領域本體的本體,因此領域內部的文檔在形式上</p><p>  非常相似。語義Web使用數據規(guī)整,提供語義化的信息內容,更多地從規(guī)則和技術標準</p><p>  上使互聯(lián)網更加有序。</p><p>  最近幾年,本體除應用在語義Web上之外,還被廣泛應用在知識表示、知識共享、</p><p>  知識集成、知識重

39、用和知識管理等領域中,但卻存在不完全相同的定義和理解。本體的</p><p>  定義有許多種,定義之間的側重點也各不相同,但本體的本質是對共享概念的一個正規(guī)</p><p>  清晰的描述。在計算機領域,本體被定義為共享概念模型的形式化的規(guī)范說明。本體通</p><p>  常包含5個建模原語:類(Class)、關系(relation)、函數(functions)

40、、公理(axioms)</p><p>  和實例(instances),用這些建模原語可以構造和設計一個本體。</p><p>  本體的應用領域越來越多,但應用的主要目的都是為了知識的共享和重用。由于本</p><p>  體自身的分散性,不同的用戶可以構造不同的本體,所以導致了在同一個或重疊的領域</p><p>  產生了許多個不同的

41、本體。即使一個小的背景領域也可能出現(xiàn)許多個不同的本體,不同</p><p>  的用戶對同一領域所建的本體都可能是不同大的。這些本體間是異構的,它們之間不能</p><p>  進行互相操作,用戶之間也不能相互理解。因為本體的構造是一個非常費時費力的過程,</p><p>  所以一個用戶在同一應用領域中同時建立多個不同的本體是不現(xiàn)實的。在同一領域內,</p&

42、gt;<p>  要想實現(xiàn)不同本體間的互操作就必須解決本體間的異構問題。</p><p>  本體的異構一般可分為結構異構和語義異構。結構異構是指信息的表示不同,也稱</p><p>  為結構沖突。語義異構是指信息的意義不同。為了實現(xiàn)異構本體間的互操作,一般可采</p><p>  用三種方法:(1)本體間建立包含關系,目標本體簡單地包含源本體;(2

43、)本體間建</p><p>  立映射關系;(3)對本體進行合并,生成一個完整的公共本體。在這三種方法中,方</p><p>  法(1)的缺點是源本體的信息只能被復用而不能被修改。方法(3)的難度較大,不易</p><p>  實現(xiàn)。方法(2)比較合適,所以一般都用本體的映射來解決本體間的異構問題。本體</p><p>  映射一般分信息本

44、體化、相似性提取、語義映射、映射執(zhí)行和映射后處理過程共五步來</p><p>  進行。相似性提取是本體映射的一個重要步驟,它主要是進行相似度的計算。</p><p>  1.1.2 研究的意義</p><p>  本體最初是一個哲學概念,用來描述事物的本質[5],本體是概念、屬性和關系的集</p><p>  合。它除了應用于語義Web的信

45、息表示之外,還被廣泛地應用于智能信息集成、協(xié)作信</p><p>  息系統(tǒng)、信息檢索、電子商務和知識管理等領域。由于本體可以描述數據的語義,所以</p><p>  在網絡或傳統(tǒng)數據庫中的任何數據(或元數據)都可以用本體來表示,以使不同的團體</p><p><b>  可以相互理解。</b></p><p>  應用

46、本體的主要目的是為了知識共享和重用。隨著信息的增多,本體的數量也越來</p><p>  越多,并且單個本體不能充分完成任務,一次必須聯(lián)合多個本體來完成任務。科研人員</p><p><b>  2</b></p><p><b>  第一章 緒論</b></p><p>  提出許多構造本體的標準

47、,其中最有影響力的是T.R.Gruber提出的5個準則[3]:明確性和</p><p>  客觀性、一致性、完全性、最大單調可擴展性、最小承諾。因為本體的構造還沒有一個</p><p>  統(tǒng)一的標準,所以在同一個領域內產生了大量不同的本體,這些本體是異構的。本體異</p><p>  構是本體間互操作的主要障礙,解決本體異構最好的辦法是本體映射,本體映射的關鍵&l

48、t;/p><p>  是本體相似度的計算。只有較好地解決了本體相似度的計算問題,我們才能夠建立大規(guī)</p><p>  模的知識本體庫,進行本體的共享和重用。</p><p>  1.2 語義 Web 概述</p><p>  1.2.1 語義 Web 的提出</p><p>  語義網最早是在1968年由奎連(MR.Qu

49、illian)作為人類聯(lián)想記憶的一個顯示心理學</p><p>  模型提出的,1973年西蒙(R.F.Simon)研究小組將語義網絡用來表達自然語言理解。</p><p>  而現(xiàn)代意義上的語義網則是被稱為互聯(lián)網之父的泊納斯。李(Tim.Berners-Lee)以及</p><p>  Web和W3C(World Wide Web Consortium)的始創(chuàng)者提

50、出的稱作“Semantic Web”的新</p><p>  一代網絡,其基本思想就是通過在Web信息的創(chuàng)作和發(fā)布中嵌入機器可閱讀的、代表某</p><p>  類知識的標注,使Web上的數據不僅能夠被機器用于顯示,而且能夠被機器所理解,從</p><p>  而提高信息服務的質量,并開拓各種嶄新的、智能化的信息服務。如果進一步將這些體</p><

51、;p>  現(xiàn)了數據與應用之間聯(lián)系的知識以對用戶透明的方式嵌入各種不同的信息源,則Web頁</p><p>  面、數據庫、程序、模塊和感應設備將通過能夠處理這種信息表示方法的agent連接起來,</p><p>  相互之間能夠理解和協(xié)作[6]。從概念定義的角度來說,伯納斯.李對語義網做了如下的描</p><p>  述[7]:語義萬維網并不是一個孤立的萬維網

52、,而是對當前萬維網上的信息具有定義良好</p><p>  的含義,使得計算機之間以及與人類能夠更好地彼此合作。W3C對語義網的定義是[8]:</p><p>  語義Web是互聯(lián)網上數據的表達,是當前互聯(lián)網的延伸,因為信息有清晰明了的含義,</p><p>  使得人與計算機能夠更好地合作。實際上我們現(xiàn)在所談的語義網,并沒有一個嚴格的定</p>&l

53、t;p>  義,而是將當前的Web網絡理解為一種語法、句法(Syntactic)網,語義網概念思想的</p><p>  出現(xiàn)則是在這一層次關系上的遞進。就目前網絡而言,它所覆蓋的大部分功能僅僅是將</p><p>  我們輸入的信息按照某種格式顯示出來,因此有人將其稱為是一系列超媒體、數字資源</p><p>  庫及應用平臺,再加上一些相關的命名序列[9]

54、。這種網絡所能做的工作就是顯示信息,</p><p>  這對于機器而言是簡單的,而我們在利用的過程中則要做聯(lián)系與解釋這些很難的工作,</p><p>  語義網思想出現(xiàn)的目的就是要讓計算機能夠“理解和處理”現(xiàn)在的Web上僅僅能顯示的</p><p>  數據,并為人們提供各種智能服務[10]。</p><p>  從語義萬維網的發(fā)展起源來看

55、,語義網是人工智能領域和Web技術相互結合的產</p><p>  物。人工智能中的知識過程研究不斷加深對知識表示和推理的認識,并總結出了一些新</p><p>  的描述和推理方法。而萬維網經過十幾年的發(fā)展,不斷積累的海量數據和近乎‘爆炸’</p><p>  的信息需要一種新的、機器可以自動完成的方式來處理和管理。“所以,當兩個領域的</p>&l

56、t;p><b>  3</b></p><p><b>  第一章 緒論</b></p><p>  積累都比較成熟,而且有了需求,就必然會走向結合”[11]。基于這樣的分析,語義網建</p><p>  立的基礎是知識的概念化和形式化以及相應的推理,它和人工智能有著深厚的淵源關</p><p&g

57、t;  系。因此,許多分析都需要從人工智能領域的角度來考察,尤其是在應用層面上考慮檢</p><p>  索代理的智能化處理。</p><p>  1.2.2 語義 Web 的目標和特征</p><p>  語義網來源于人工智能,并且得益于數據挖掘、自然語言處理等很多相關領域的研</p><p>  究,雖然因此它們在功能和部分內容形式上具有

58、很多相似之處,但因為各自的應用環(huán)境</p><p>  不同,它們之間也就自然存在著許多顯著的差異。我們可以在區(qū)別一些相關領域概念的</p><p>  基礎之上歸納語義網的目標和特征。</p><p>  (1)與人工智能的區(qū)別[12];從人工智能的邏輯學派和認知學派的觀點來看,知識</p><p>  與概念化是人工智能的核心。傳統(tǒng)的人工

59、智能系統(tǒng),要求共同遵守一些公共概念的完全</p><p>  一致的定義,并且一般都有它們各自狹義的、特有的用于信息推理的規(guī)則集合。盡管數</p><p>  據能夠從一個系統(tǒng)轉換到另一系統(tǒng),但由于系統(tǒng)間的推理規(guī)則通常以完全不同的形式存</p><p>  在,從而致使一個系統(tǒng)的規(guī)則不能用于其他系統(tǒng)。從這一點上來看,傳統(tǒng)的人工智能是</p><p

60、>  一種集中、孤立的系統(tǒng)。同樣,語義萬維網也是以知識的概念化表示為基礎展開的。語</p><p>  義萬維網中的知識,就是通過一系列標準和工具對資源的建模及描述。資源,是一個非</p><p>  常廣泛的概念,它可以是網站、網頁甚至網頁的某一個部分的內容。這種描述采用某種</p><p>  形式的符號和表達式,對Web上與該資源相關的其它資源,以及這些

61、資源之間的關系進</p><p>  行刻畫。但是,和傳統(tǒng)的人工智能系統(tǒng)不同,語義萬維網的知識表示的特殊性在于,它</p><p>  本身要符合Web的分散性和通用性。知識的表示本身可能是由眾多的獨立團體或個人,</p><p>  以各種各樣的方式來提供,而這些知識卻又要求能夠被各種各樣的應用實現(xiàn)共同理解,</p><p>  并且在一定

62、的邏輯規(guī)則指導下進行推理。所以語義Web上的知識具有創(chuàng)建上的分散性,</p><p>  同時又具有應用上的通用性。這是語義Web和傳統(tǒng)的人工智能系統(tǒng)一個非常重要的區(qū)</p><p><b>  別。</b></p><p>  (2)與自然語言理解的區(qū)別[13];雖然語義網的飛躍發(fā)展在很大程度上得益于與自</p><p&g

63、t;  然語言處理同步研究的機器翻譯,但兩者最大的不同在于自然語言處理關心的是人的語</p><p>  言,而語義網則是要設計實現(xiàn)機器自己所能理解含義的交流工具。可以認為兩者在應用</p><p>  性研究上有交叉,但研究對象卻是有著顯著區(qū)別的。并且語義網在機器翻譯中的突出表</p><p>  現(xiàn)僅僅是人們所直接接觸的應用之一,不能將其定位在機器翻譯這一領域之

64、中。</p><p>  通過與這些密切相關領域概念和功能的區(qū)分,可以對語義網的功能目標和環(huán)境特征</p><p>  作以簡單歸納;語義網的目標是應用有效的標準和技術使得計算機更多地理解網上的信</p><p>  息,從而進行知識發(fā)現(xiàn)、數據集成、信息導航等。從目前發(fā)展來看,語義網可以被看作</p><p>  是“未來萬維網的雛形”,它所

65、描述的信息具有明確的含義,從而使的計算機集成萬維</p><p>  網上的信息并進行自動處理變得更為容易。語義網可以提供手段將特定的信息添加到網</p><p>  上,并以此為基礎進行知識發(fā)現(xiàn)和關聯(lián),它還提供了聲明可信賴的方式和手段。通過這</p><p><b>  4</b></p><p><b> 

66、 第一章 緒論</b></p><p>  些,我們可以發(fā)現(xiàn),語義網的環(huán)境特征包括[14]:</p><p>  (1)所有的資源都能用URI(Uniform Resource Identifier)來標識;</p><p>  (2)資源與鏈接可以有類型;</p><p>  (3)部分、片段、不完整的信息是容許的;</p

67、><p> ?。?)信息不必是絕對真實的;</p><p>  (5)能支持、反映信息的變化與演化;</p><p> ?。?)最小設計原則。</p><p>  1.3 相關領域的研究現(xiàn)狀</p><p>  國內目前在語義Web方面的研究現(xiàn)狀是:基礎研究多,應用研究少;跟蹤研究多,</p><p&g

68、t;  創(chuàng)新研究少;《語義信息模型及應用》和《語義網簡明教程》兩書是國內出現(xiàn)最早的相</p><p>  關研究教材,但由于近兩年來相關標準的更新和實用開發(fā)技術的出現(xiàn),其結構思路也已</p><p>  經不能夠完全適合語義Web發(fā)展的思想。國家自然科學基金前年啟動了一個重大項目</p><p>  “非規(guī)范知識的基本理論及核心技術研究”,有七個子課題,很多學校和單

69、位都參與其</p><p>  中,目前在上海交大、浙江大學、武漢大學、清華、北大、中國農業(yè)大學等國內高校都</p><p>  有很多專家及項目小組從事這一方面的研究,與此課題相關的多數實踐研究都處于外文</p><p>  文獻閱讀及實用工具試用分析過程中。當前對于語義Web的研究仍舊集中在特定領域本</p><p>  體構造及分析過程

70、中,這一方面是因為語義Web體系結構的上層還正在構建中,另一方</p><p>  面也在于本體是語義Web的核心,是構筑語義網絡信息實體應用的基礎。</p><p>  本體相似度的量化計算方法,現(xiàn)有兩種途徑[15]:其一是基于本體庫,利用同義詞詞</p><p>  典(Thesaurus)等計算相似度,Princiton 大學的 WordNet 就是一部樹狀的

71、英語語義詞典。</p><p>  樹狀圖上兩片樹葉的距離就是這兩個概念的語義距離,由語義距離可近一步得到本體相</p><p>  似度。其二是基于大規(guī)模的本體庫統(tǒng)計信息,利用詞語的相關性來計算相似度。通常選</p><p>  取一組特征詞,利用在實際大規(guī)模本體庫中上下文的出現(xiàn)頻率得到相關性的特征向量,</p><p>  用向量的夾角余

72、弦來計算相似度。</p><p>  本體位于從文檔描述到知識推理轉折的層次,本體的構建是實現(xiàn)語義Web的關鍵環(huán)</p><p>  節(jié)[16]。國內關于ontology的研究比較廣泛且較深入,相關論文[17,18 ,19]也較多,大多是在對</p><p>  ontology的定義[20,21]、基本含義以及本體語言進行簡要介紹的基礎上,就Ontology在相關

73、</p><p>  學科領域的影響、應用及其構造進行探討[22,23 ,24]與論述。討論相對較多的主要有本體論</p><p>  與信息檢索、本體論與數字圖書館、本體論與信息管理,此外還包括知識庫系統(tǒng)、數據</p><p>  挖掘、機器翻譯、需求分析等[24,25 ,26]。</p><p>  1.4 研究的主要問題</p&g

74、t;<p>  本課題研究的主要內容就是結合Rough理論,利用其發(fā)現(xiàn)屬性間的依賴關系、約簡</p><p><b>  5</b></p><p><b>  第一章 緒論</b></p><p>  冗余屬性與對象,確定屬性的權重,從語義角度來計算領域本體的相似度,主要包括領</p><

75、;p>  域本體構建、信息資源收集等,最后提出基于Rough集的本體相似性度量算法。重點放</p><p>  在領域本體的構建和相似性度量上。</p><p><b>  1.5 主要創(chuàng)新點</b></p><p>  本文在以下兩個方面有所創(chuàng)新:</p><p>  一是提出了結合Rough理論中的方法來度量本

76、體的相似度。主要是利用Rough理論</p><p>  來發(fā)現(xiàn)屬性間的依賴關系,進行屬性約簡,度量屬性間的重要度,以此來確定每個屬性</p><p>  的權重值,克服已有方法中對屬性權重值系數的人為確定的隨意性。</p><p>  二是設計了一個以OWL作為本體描述語言,采用Rough理論方法進行度量的本體相</p><p>  似度計

77、算系統(tǒng),并實現(xiàn)了實驗原型。通過該系統(tǒng)的應用效果定量分析,驗證了基于Rough</p><p>  的本體相似性研究的效果和性能。</p><p><b>  1.6 各章節(jié)安排</b></p><p>  全文共由六章組成。緒論部分扼要闡述了課題研究的目的和意義,通過分析相關領</p><p>  域研究現(xiàn)狀,提出了課題

78、要解決的關鍵問題,最后介紹了主要創(chuàng)新點。</p><p>  第二章介紹本體的分類、描述語言,以及如何用描述邏輯語言描述領域問題。</p><p>  第三章主要介紹了Rough集理論中的屬性約簡理論。概述了Rough集的基本概念,</p><p>  重點介紹屬性約簡的基礎知識,分析了現(xiàn)有的屬性約簡理論。</p><p>  第四章介紹了現(xiàn)

79、有的本體相似度計算方法,提出了基于二進制的差別矩陣屬性約簡</p><p>  算法和基于Rough集的本體相似度計算算法,為基于Rough集的本體相似度度量系統(tǒng)的</p><p>  順利實施奠定了基礎。</p><p>  第五章介紹了主要開發(fā)工具,并構建了一個旅游本體,設計實現(xiàn)了基于Rough集的</p><p>  本體相似度度量系統(tǒng)

80、,并且通過試驗系統(tǒng)驗證了該方案的實踐上的正確性和可行性。</p><p>  第六章給出了本課題研究的主要結論,并探討了進一步研究的方向。</p><p><b>  6</b></p><p>  第二章 語義 Web 及本體</p><p>  第二章 語義 Web 及本體</p><p> 

81、 2.1 語義 Web 體系結構</p><p>  在XML 2000會議上,Tim Berners-Lee首次給出了語義Web基本構架[29],它是個功</p><p>  能逐層增強的層次化結構,如圖2-1。2001年2月W3C組織正式推出Semantic Web Activity,</p><p>  它成為推動語義網研究和發(fā)展的主要力量。</p>

82、;<p>  圖 2-1 語義網體系結構圖</p><p><b>  Fig2-1</b></p><p>  Structure Graph of Semantic Web</p><p>  第一層:Unicode和URI。Unicode是一個字符集,這個字符集中所有字符都用兩個</p><p>  

83、字節(jié)表示,可以表示65536個字符,基本上包括了世界上所有語言的字符。數據格式采</p><p>  用Unicode的好處就是它支持世界上所有主要語言的混合,并且可以同時進行檢索。</p><p>  URI(Uniform Resource Identifier),即統(tǒng)一資源定位符,用于唯一標識網絡上的一個概念</p><p>  或資源。在語義網體系結構中,該

84、層是整個語義網的基礎,其中Unicode負責處理資源</p><p>  的編碼,URI負責資源的標識[27]。</p><p>  第二層:XML+NS+xmlschema。 XML是一個精簡的SGML,它綜合了SGML的豐</p><p>  富功能與HTML的易用性,它允許用戶在文檔中加入任意的結構,而無需說明這些結構</p><p>

85、  的含意。NS(Name Space)即命名空間,由URI索引確定,目的是為了避免不同的應用使</p><p>  用同樣的字符描述不同的事物。XML Schema是DTD(Document Data Type)的替代品,它</p><p>  本身采用XML語法,但比DTD更加靈活,提供更多的數據類型,能更好地為有效的XML</p><p>  文檔服務并提供數

86、據校驗機制。正是由于XML靈活的結構性、由URI索引的NS而帶來的</p><p>  數據可確定性以及XML Schema所提供的多種數據類型及檢驗機制,使其成為語義網體</p><p>  系結構的重要組成部分。該層負責從語法上表示數據的內容和結構,通過使用標準的語</p><p>  言將網絡信息的表現(xiàn)形式、數據結構和內容分離[28]。</p>

87、<p><b>  7</b></p><p>  第二章 語義 Web 及本體</p><p>  第三層:RDF+rdfschema。RDF是一種描述WWW上的信息資源的一種語言,其目</p><p>  標是建立一種供多種元數據標準共存的框架。該框架能充分利用各種元數據的優(yōu)勢,進</p><p>  行基

88、于Web 的數據交換和再利用。RDF解決的是如何采用XML標準語法無二義性地描</p><p>  述資源對象的問題,使得所描述的資源的元數據信息成為機器可理解的信息。如果把</p><p>  XML看作為一種標準化的元數據語法規(guī)范的話,那么RDF就可以看作為一種標準化的元</p><p>  數據語義描述規(guī)范。Rdfschema使用一種機器可以理解的體系來定義描

89、述資源的詞匯,</p><p>  其目的是提供詞匯嵌入的機制或框架,在該框架下多種詞匯可以集成在一起實現(xiàn)對Web</p><p><b>  資源的描述。</b></p><p>  第四層:Ontology vocabulary。該層是在RDF(S)基礎上定義的概念及其關系的抽象</p><p>  描述,用于描述應

90、用領域的知識[32],描述各類資源及資源之間的關系,實現(xiàn)對詞匯表的</p><p>  擴展。在這一層,用戶不僅可以定義概念而且可以定義概念之間豐富的關系[30]。</p><p>  第五至七層:Logic、Proof、Trust。Logic負責提供公理和推理規(guī)則,而Logic一旦</p><p>  建立,便可以通過邏輯推理對資源、資源之間的關系以及推理結果進行

91、驗證,證明其有</p><p>  效性。通過Proof交換以及數字簽名,建立一定的信任關系,從而證明語義網輸出的可靠</p><p>  性以及其是否符合用戶的要求。</p><p>  2.2 本體的定義和分類</p><p>  2.2.1 本體的定義</p><p>  在計算機界,明確本體的定義經歷了一個過程

92、。1993年,Gruber給出了本體的一個</p><p>  最為流行的定義,即“本體是概念模型的明確的規(guī)范說明”</p><p><b>  [31]</b></p><p>  修改,提出:“本體是共享模型的形式化規(guī)范說明”。Studer等對上述兩個定義進行了</p><p>  深入的研究,認為本體是共享概念模型

93、的明確的形式化規(guī)范說明。這個定義包含4層含</p><p>  義:概念化(Conceptualization)、明確(Explicit)、形式化(Formal)和共享(Share)</p><p><b>  [32]</b></p><p>  “概念化”指通過抽象出客觀世界中一些現(xiàn)象的相關概念而得到概述模型,即概念</p>

94、<p>  系統(tǒng)所蘊涵的語義結構,是對某一事實結構的一組非正式的約束規(guī)則,可以理解和表達</p><p>  為一組概念(如實體、屬性、過程)、定義和關系。</p><p>  “明確”指所使用的概念及使用這些概念的約束都有明確的定義。</p><p>  “形式化”指本體中體現(xiàn)的是共同認可的知識,反映的是相關領域中公認的概念集,</p>&

95、lt;p>  即本體針對的是社會范疇而非個體之間的共識。</p><p>  除上述定義外,不少文獻從不同的問題域和研究角度出發(fā),對本體又給出了各種各</p><p>  樣的定義??偠灾倔w的目標是獲取、描述和表示相關領域的知識,提供對該領域</p><p>  知識的共同理解,確定該領域內共同認可的詞匯,并從不同層次的形式化模式上給出這</p&g

96、t;<p>  些詞匯(術語)和詞匯間相互關系的明確定義。</p><p><b>  8</b></p><p>  第二章 語義 Web 及本體</p><p>  本體的研究與應用主要包括3個方面[33]:(1)理論上的研究,主要研究概念及其分</p><p>  類、本體上的代數;(2)在信息系統(tǒng)中

97、的應用,主要包括處理信息組織、信息檢索和</p><p>  異構信息系統(tǒng)互操作問題;(3)本體作為一種能在知識層提供知識共享和重用的工具</p><p>  在語義Web中的應用。</p><p>  2.2.2 本體的分類</p><p>  對不同的研究者,本體可以是一個邏輯理論、一個形式化語義記錄、邏輯理論詞匯、</p>

98、<p>  或概念化規(guī)約,但是依然可以看出,這些定義有著共同的目標,它們都是捕獲相關領域</p><p>  的知識,提供對該知識的共同理解,確定該領域內共同認可的詞匯,并從不同層次的形</p><p>  式化模式上給出這些詞匯(術語)和詞匯之間相互關系的明確定義[34]。根據本體不同方</p><p>  面的屬性(如形式化程度和描述的對象)可以對本

99、體進行不同的分類[35]。</p><p>  根據本體的形式化程度不同,可以把本體分為:</p><p>  高度非形式化的(high-informal) 用自然語言自由隨意地表達;</p><p>  結構非形式化的(structured-informal) 用受限定的結構式自然語言表達。</p><p>  半形式化的(semi-for

100、mal) 用人工定義的形式語言表達;</p><p>  嚴格形式化的(rigorously formal) 用屬性的形式語義、定理和證明嚴格、仔細地</p><p>  定義術語。并使之具有正確性和完整性。</p><p>  根據本體的描述對象不同,可以把本體分為特殊領域本體(如醫(yī)藥、地理、金融等)、</p><p>  一般世界知識本體

101、、問題求解本體和知識表示語言本體。</p><p>  Guarino提出以詳細程度和領域依賴度作為本體的劃分基礎[36],詳細程度是指描述</p><p>  或刻畫建模對象的程度,它是一個相對的較模糊的概念。詳細程度高的本體稱為參考本</p><p>  體,詳細程度低的本體稱為共享本體。依照領域依賴程度可以分為頂級本體、領域本體、</p><

102、;p>  任務本體和應用本體四類,其中:(1)頂級本體:描述的是最普通的概念及概念之間</p><p>  的關系,如空間、時間、事件等,與具體的應用無關。其它種類的本體都是該類本體的</p><p>  特例。(2)領域本體:描述的是特定領域(醫(yī)藥、地理等)中的概念及概念之間的關</p><p>  系。(3)任務本體:描述的是特定任務和行為中的概念及概念之

103、間的關系。(4)應用</p><p>  本體:描述的是依賴于特定領域和任務的概念及概念之間的關系。</p><p>  1999年Perez和Ben jamins在分析和研究了各種本體的分類法的基礎上歸納出10種本</p><p>  體[40]:知識表示本體、普通本體、頂級本體、元本體、領域本體、語言本體、任務本體、</p><p>  

104、領域-任務本體、方法本體和應用本體。該分類方法是對Guarino所提出分類方法的擴充</p><p>  和細化。但這10種本體之間有交叉,層次不夠清晰。</p><p><b>  2.3 本體的建模</b></p><p>  對于本體的具體構造過程,可以用下面的公式形象地給出:</p><p>  本體=概念(Co

105、ncept)+屬性(Property)+公理(Axiom)+取值(Value)+名義(Nominal)[10]</p><p><b>  9</b></p><p>  第二章 語義 Web 及本體</p><p>  概念可分成“原始概念(Primitive concept)”(屬性是必要條件,而非充要條件的</p><

106、p>  情況)和“定義概念(Defined concepts)”(屬性是充分必要條件的情況)兩種。屬性則是</p><p>  對概念特征或性質的描述。例如:“人是哺乳動物”是簡單概念,“素數是只能被1和</p><p>  自身整除的正整數”則是定義概念。至于“公理”,即是定義在“概念”和“屬性”上</p><p>  的限定和規(guī)則?!叭≈怠眲t是具體的賦值,

107、“名義”是無實例的概念或者是用在概念定</p><p><b>  義中的實例。</b></p><p>  從語義上分析,實例表示的就是對象,而概念表示的則是對象的集合,關系對應于</p><p>  對象元組的集合。概念的定義一般采用框架結構,包括概念的名稱,與其他概念之間關</p><p>  系的集合,以及用自然

108、語言對該概念的描述。基本的關系有四種:part-of ,kind-of,</p><p>  instance-of和attribute-of。part-of表達概念之間部分與整體的關系,kind-of表達概念之間</p><p>  的繼承關系,instance-of表達概念的實例和概念之間的關系,attribute-of表達某個概念是</p><p>  另外一

109、個概念的屬性。如圖2-2用一個簡單的有向圖來表示一個簡單的運輸本體。</p><p><b>  圖 2-2</b></p><p><b>  運輸本體</b></p><p><b>  Fig2-2</b></p><p>  Ontology of Transport&

110、lt;/p><p>  Perez等人用分類法組織本體,歸納出5個基本建模原語來形式化表示本體[37]:</p><p>  類(classer)或概念(concepts):指任何事務,如任務、功能、行為、策略和推理過程。從</p><p>  語義上講,它表示的是對象的集合,其定義一般采用框架(frame)結構,包括概念的</p><p>  

111、名稱,與其它概念之間的關系的集合,以及用自然語言對概念的描述。</p><p>  關系(relations):在領域中概念之間的交互作用,形式上定義為n維笛卡兒積的子集:</p><p>  R:C1*C2*…*Cn.如子類關系(subclass-of)。在語義上關系對應于對象元組的集合。</p><p>  函數(functions):一類特殊的關系。該關系的前

112、n-1個元素可以唯一決定第n個元素。</p><p><b>  10</b></p><p>  第二章 語義 Web 及本體</p><p>  形式化的定義為F:C1*C2*…*Cn-1->Cn。如Price-of-a-used-car就是一個函數,是根據車</p><p>  型、制造日期、行駛路程計算的二

113、手車的價格。</p><p>  公理(axioms):代表永真斷言,如概念乙屬于概念甲的范圍。</p><p>  實例(instances):代表元素。從語義上將實例表示的就是對象。</p><p>  在實際建模過程中,可以根據具體的需要定義概念之間的關系,并不局限于前面所</p><p>  述的4種。一般來說,在構造一個本體時需要經

114、過以下幾步:</p><p>  確定本體領域和范圍。對具體研究領域建立相應的本體,領域越大,所建本體就越</p><p>  大,因此需要限制研究的范圍;</p><p>  可以考慮復用現(xiàn)有的本體。如果所研究的領域需要用到其它領域的知識,那么直接</p><p>  復用已有的本體,可以提高資源的利用率;</p><p

115、>  列舉出本體中的重要術語。把所研究領域的各個實體對象及其屬性、關系等用術語</p><p><b>  表示出來;</b></p><p>  定義類和類層次。類定義是指一個類的描述,其中包括類型定義,相關子類的定義</p><p>  等。在定義類層次時可以用三中不同的方法:(1)、先定義最全面的概念然后再對概</p>

116、<p>  念進行細化,即按自頂向下的方向來進行;(2)、先定義最具體的概念,然后再把具</p><p>  體概念組合成最具概括性的概念,即按自底向上的方向來進行;(3)把上述兩種想結</p><p>  合,即按自頂向下和自底向上的兩個方向同時進行。</p><p>  定義類的屬性。對類進行定義時,可以同時定義類的屬性。比較常用的屬性類型有<

117、/p><p>  字符型、數值型、布爾型和枚舉型。</p><p>  定義槽的約束。一個槽可以有許多面。它們分別來描述值的大小、值的類型、值的</p><p><b>  范圍、值的維度等。</b></p><p>  生成實例。定義一個類所需要的單個實例,這個過程需要三步,即(1)選擇一個</p><

118、p>  類;(2)生成類的單個實例;(3)填充槽的值。</p><p>  Grulzer于1995年在文獻[38]中提出本體發(fā)展過程中構建本體的標準和原則:清晰性</p><p>  (clarity)、明確性和客觀性,完全性(Completenese),一致性(Coherence),最大單調擴展</p><p>  性(Extendibility),最小承

119、諾(Minimal ontological commitment)和最小編碼偏好(Minimal</p><p>  encoding bias)。</p><p>  5條準則給出了構造本體的基本思路和框架,在遵循上述規(guī)則的基礎上,人們創(chuàng)建</p><p>  了許多的本體。Mariano在研究了現(xiàn)有各類構建本體的方法的基礎上,歸納出目前5種比</p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論