版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著互聯(lián)網(wǎng)的迅猛發(fā)展,互聯(lián)網(wǎng)所覆蓋的范圍越來越廣,同時(shí)互聯(lián)網(wǎng)上的信息也呈爆炸性增長。面對如此龐大的信息量,即使采用目前的網(wǎng)絡(luò)目錄或者搜索引擎技術(shù),要找到所需要的信息以及信息的組合,仍然是非常困難的。如何讓機(jī)器能夠簡單的理解Web上的信息,在找到Web上的信息并交給人類以前,盡可能的理解人類的意圖,并分析Web上的信息,增加最后人類找到正確目標(biāo)的可能性甚至完全替代人類的工作,是語義Web所要達(dá)到的目標(biāo)。 語義Web不是一個(gè)獨(dú)立的概
2、念而是對現(xiàn)有Web的一個(gè)擴(kuò)展。語義Web由知識表達(dá)、本體和代理三個(gè)部分構(gòu)成。本體是概念的集合,另外在本體中還包含概念的屬性以及概念之間的關(guān)系。語義Web中的本體是以描述邏輯為基礎(chǔ)的,因此它支持簡單的推理能力。這使得語義Web比傳統(tǒng)的Web對信息的描述能力顯著增強(qiáng)。另外,計(jì)算機(jī)之間可以通過理解互相的本體來達(dá)到交流知識的目的,甚至人類也可以通過專家系統(tǒng)本體來和機(jī)器交流知識。 本體賦予語義Web語義信息,因此圍繞本體對互聯(lián)網(wǎng)信息進(jìn)行的
3、操作的研究成為語義Web研究的一個(gè)重要領(lǐng)域。這些領(lǐng)域包括本體標(biāo)注、本體集成、本體構(gòu)建以及基于本體的機(jī)器學(xué)習(xí)。目前本體的研究存在以下問題: 1)目前實(shí)用的本體應(yīng)用十分有限。大多數(shù)的本體應(yīng)用僅僅停留在本體理論階段。 2)已開發(fā)出來的本體內(nèi)容不夠深入,形式化程度不夠。 3)本體的應(yīng)用基于機(jī)器對本體的理解,相應(yīng)關(guān)于本體理解的理論研究相對有限。 針對機(jī)器對本體的理解,本文提出了對信息的一種新的本體描述方法和用于本體
4、比較的本體相似算法以及具體的應(yīng)用,在這方面做深入的探索。 本體的使用不僅僅是為了在一個(gè)小的領(lǐng)域內(nèi)實(shí)現(xiàn)計(jì)算機(jī)對信息的理解和交流,更是為不同領(lǐng)域計(jì)算機(jī)對信息的理解和交流提供了一種表達(dá)方式,所以本體在知識表達(dá)領(lǐng)域具有重要的作用?;诒倔w工作的系統(tǒng)往往是由很多本體組成。在這種表達(dá)方式的基礎(chǔ)上,對本體的進(jìn)一步處理,才是計(jì)算機(jī)理解語義Web中信息的核心。對本體的操作都是以計(jì)算兩個(gè)本體之間的相似度或者兩個(gè)本體的部分之間的相似度為基礎(chǔ)的。
5、 本體相似主要是針對本體中的實(shí)體,從圖論、字符串或者語法等角度來比較兩個(gè)本體的異同。本體相似的應(yīng)用場景主要包括本體(或概念)映射、本體集成、本體比較、本體擴(kuò)展、本體模塊化以及Web Service中業(yè)務(wù)發(fā)現(xiàn),業(yè)務(wù)組合等。 現(xiàn)有的本體相似度計(jì)算技術(shù)主要從下面的八個(gè)角度出發(fā)來計(jì)算本體相似度的: 1)從字符串的角度; 2)詞義或者自然語言的角度; 3)原子概念的可比較屬性的綜合比較; 4)原子概念的類
6、型以及與其他原子概念的關(guān)系; 5)本體的結(jié)構(gòu)或者本體構(gòu)造的圖或者樹的角度; 6)推理的角度; 7)機(jī)器學(xué)習(xí)的角度; 8)應(yīng)用場景。 本體相似技術(shù)還處于剛剛起步的階段,很多方面需要界定和研究。只有完善的定義了本體相似,才能在對信息進(jìn)行本體描述的基礎(chǔ)上,完成對信息的計(jì)算機(jī)理解和處理。另外,關(guān)于本體相似計(jì)算的性能以及服務(wù)質(zhì)量問題,也是一個(gè)全新的尚未被提出和界定的領(lǐng)域。在處理本體相似過程中,動態(tài)、高效是未
7、來的發(fā)展方向。 語義Web上每個(gè)文檔都是一個(gè)本體,這些文檔可以構(gòu)造成大的本體,而在這些文檔內(nèi)部,又可以拆分成小的本體。 在語義Web中可以用一個(gè)或者一族本體對某個(gè)領(lǐng)域的知識進(jìn)行歸納和描述,這些本體稱為領(lǐng)域本體。在領(lǐng)域本體中定義了領(lǐng)域中基本的概念、概念的屬性以及概念之間的關(guān)系。受限本體是指用領(lǐng)域本體描述的本體內(nèi)的信息。 在語義Web中,在完成對標(biāo)注后信息的本體描述后,需要計(jì)算兩個(gè)本體的相似度來判定某個(gè)本體是正例或反
8、例。目前已有的本體相似算法都是通過比較語法來計(jì)算本體的相似度,然而當(dāng)前所有包含內(nèi)容的本體都是受限本體,它們都繼承自同樣的領(lǐng)域本體,因此在受限本體之上計(jì)算相似度需要構(gòu)建新的相似算法把本體比較量化。 已有的本體匹配算法大多數(shù)都沒有應(yīng)用本體的推理能力對本體中包含的關(guān)系進(jìn)行深入的挖掘,這主要是因?yàn)樵趹?yīng)用推力能力的過程中,很容易使算法陷入循環(huán)。本文提到的本體匹配算法,僅僅應(yīng)用了第一次推理的結(jié)果來比較實(shí)體之間在關(guān)系方面的相似度,這就避免了陷
9、入循環(huán),同時(shí)又能夠應(yīng)用本體的推理能力。受限本體相似的核心原則是充分利用本體關(guān)系推理過程中生成的關(guān)系集計(jì)算相似度。 本體的相似度定義從根本上是為了應(yīng)用服務(wù)的,所以基本可比屬性的定義以及權(quán)重的定義都由應(yīng)用來決定,同時(shí)二階的定義一方面充分利用了本體自身的推理能力,另一方面又避免了因?yàn)橐腙P(guān)系而造成的循環(huán)計(jì)算。 信息抽取是自然語言處理和人工智能的結(jié)合。信息抽取系統(tǒng)的主要功能是從文本中抽取出特定的事實(shí)信息。信息抽取系統(tǒng)中的關(guān)鍵技術(shù)
10、主要包括:自然語言處理、命名實(shí)體識別、篇章分析及推理和知識獲取。信息抽取過程包括學(xué)習(xí)過程和應(yīng)用過程。學(xué)習(xí)過程是一個(gè)機(jī)器學(xué)習(xí)的過程,主要針對特定領(lǐng)域內(nèi)的文檔集合進(jìn)行學(xué)習(xí),而應(yīng)用過程是針對學(xué)習(xí)的結(jié)果在未知文檔上進(jìn)行實(shí)踐。 現(xiàn)有的信息抽取算法基本上都是采用自然語言處理工具對文檔進(jìn)行標(biāo)注并學(xué)習(xí)。這些算法按照學(xué)習(xí)過程的不同可以分為三類:規(guī)則學(xué)習(xí)、分類學(xué)習(xí)以及統(tǒng)計(jì)學(xué)習(xí)。這三個(gè)分類也不是孤立的,例如在規(guī)則學(xué)習(xí)算法中,對規(guī)則的取舍通常就要用到統(tǒng)
11、計(jì)。 為了深入挖掘標(biāo)注后文檔中的關(guān)系,提高信息抽取的效率,我們提出了用語義Web中的本體對自然語言處理后的文檔進(jìn)行二次描述,然后應(yīng)用合理的機(jī)器學(xué)習(xí)過程來學(xué)習(xí)并應(yīng)用學(xué)習(xí)結(jié)果到未知文檔中。在本文中我們的機(jī)器學(xué)習(xí)工具是支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)。本體自身的簡單推理能力和機(jī)器學(xué)習(xí)的合理應(yīng)用是算法取得優(yōu)秀結(jié)果的關(guān)鍵。這個(gè)算法稱為基于本體關(guān)系匹配的信息抽取(OERM)。 OERM算法中關(guān)鍵的技術(shù)是本體表達(dá)方式、本體比較。采用本體來描述待抽取字
12、段的上下文關(guān)系,對原始文本內(nèi)容進(jìn)行了深入的擴(kuò)展。這是以往基于規(guī)則的抽取或基于統(tǒng)計(jì)的抽取技術(shù)的描述能力所未涉及的;而且通過本體簡單的推理能力,還能夠?qū)κ芟薇倔w中蘊(yùn)涵的關(guān)系進(jìn)行深入的挖掘。另外,ANN和SVM-UM很適合這種數(shù)據(jù)稀疏而且有相當(dāng)程度的噪音的應(yīng)用,在采用合理的終止條件判定方案后,可以達(dá)到了良好的效果。 OERM算法在兩個(gè)數(shù)據(jù)集上的評測都優(yōu)于已有的信息抽取系統(tǒng),另一方面,實(shí)驗(yàn)結(jié)果顯示,應(yīng)用一個(gè)小的訓(xùn)練集合,OERM算法就能
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于共用本體與語義相似度的本體映射.pdf
- 本體構(gòu)建與基于相似度計(jì)算的本體映射研究.pdf
- 基于共用本體與語義相似度的本體映射
- 基于本體的語義相似度研究.pdf
- 基于本體映射的OWL本體概念相似度算法研究.pdf
- OWL本體之間概念相似度計(jì)算研究.pdf
- 基于本體的概念語義相似度研究.pdf
- 肝炎本體構(gòu)建及語義相似度研究.pdf
- 基于相似度計(jì)算的本體映射方法研究.pdf
- 基于相似度計(jì)算的本體映射的優(yōu)化.pdf
- OWL DL本體中概念相似度算法研究.pdf
- 受限語境下文本語義相似度計(jì)算研究及應(yīng)用.pdf
- 基于本體的概念語義相似度測量研究.pdf
- 基于本體映射的概念相似性算法研究.pdf
- 基于相似度計(jì)算的本體匹配方法研究.pdf
- 基于相似度計(jì)算的本體映射方法的研究.pdf
- 基于相似度計(jì)算的領(lǐng)域本體間映射方法.pdf
- 基于綜合本體相似度計(jì)算的WEB服務(wù)發(fā)現(xiàn).pdf
- 基于相似度計(jì)算的本體映射研究與實(shí)現(xiàn).pdf
- 基因本體術(shù)語相似度計(jì)算和擴(kuò)展方法研究.pdf
評論
0/150
提交評論