受限本體相似.pdf

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-10 格式：pdf 頁數(shù)：124 大小：9.74MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩123頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著互聯(lián)網(wǎng)的迅猛發(fā)展，互聯(lián)網(wǎng)所覆蓋的范圍越來越廣，同時(shí)互聯(lián)網(wǎng)上的信息也呈爆炸性增長(zhǎng)。面對(duì)如此龐大的信息量，即使采用目前的網(wǎng)絡(luò)目錄或者搜索引擎技術(shù)，要找到所需要的信息以及信息的組合，仍然是非常困難的。如何讓機(jī)器能夠簡(jiǎn)單的理解Web上的信息，在找到Web上的信息并交給人類以前，盡可能的理解人類的意圖，并分析Web上的信息，增加最后人類找到正確目標(biāo)的可能性甚至完全替代人類的工作，是語義Web所要達(dá)到的目標(biāo)。語義Web不是一個(gè)獨(dú)立的概

2、念而是對(duì)現(xiàn)有Web的一個(gè)擴(kuò)展。語義Web由知識(shí)表達(dá)、本體和代理三個(gè)部分構(gòu)成。本體是概念的集合，另外在本體中還包含概念的屬性以及概念之間的關(guān)系。語義Web中的本體是以描述邏輯為基礎(chǔ)的，因此它支持簡(jiǎn)單的推理能力。這使得語義Web比傳統(tǒng)的Web對(duì)信息的描述能力顯著增強(qiáng)。另外，計(jì)算機(jī)之間可以通過理解互相的本體來達(dá)到交流知識(shí)的目的，甚至人類也可以通過專家系統(tǒng)本體來和機(jī)器交流知識(shí)。本體賦予語義Web語義信息，因此圍繞本體對(duì)互聯(lián)網(wǎng)信息進(jìn)行的

3、操作的研究成為語義Web研究的一個(gè)重要領(lǐng)域。這些領(lǐng)域包括本體標(biāo)注、本體集成、本體構(gòu)建以及基于本體的機(jī)器學(xué)習(xí)。目前本體的研究存在以下問題： 1)目前實(shí)用的本體應(yīng)用十分有限。大多數(shù)的本體應(yīng)用僅僅停留在本體理論階段。 2)已開發(fā)出來的本體內(nèi)容不夠深入，形式化程度不夠。 3)本體的應(yīng)用基于機(jī)器對(duì)本體的理解，相應(yīng)關(guān)于本體理解的理論研究相對(duì)有限。針對(duì)機(jī)器對(duì)本體的理解，本文提出了對(duì)信息的一種新的本體描述方法和用于本體

4、比較的本體相似算法以及具體的應(yīng)用，在這方面做深入的探索。本體的使用不僅僅是為了在一個(gè)小的領(lǐng)域內(nèi)實(shí)現(xiàn)計(jì)算機(jī)對(duì)信息的理解和交流，更是為不同領(lǐng)域計(jì)算機(jī)對(duì)信息的理解和交流提供了一種表達(dá)方式，所以本體在知識(shí)表達(dá)領(lǐng)域具有重要的作用?；诒倔w工作的系統(tǒng)往往是由很多本體組成。在這種表達(dá)方式的基礎(chǔ)上，對(duì)本體的進(jìn)一步處理，才是計(jì)算機(jī)理解語義Web中信息的核心。對(duì)本體的操作都是以計(jì)算兩個(gè)本體之間的相似度或者兩個(gè)本體的部分之間的相似度為基礎(chǔ)的。

5、本體相似主要是針對(duì)本體中的實(shí)體，從圖論、字符串或者語法等角度來比較兩個(gè)本體的異同。本體相似的應(yīng)用場(chǎng)景主要包括本體(或概念)映射、本體集成、本體比較、本體擴(kuò)展、本體模塊化以及Web Service中業(yè)務(wù)發(fā)現(xiàn)，業(yè)務(wù)組合等。現(xiàn)有的本體相似度計(jì)算技術(shù)主要從下面的八個(gè)角度出發(fā)來計(jì)算本體相似度的： 1)從字符串的角度； 2)詞義或者自然語言的角度； 3)原子概念的可比較屬性的綜合比較； 4)原子概念的類

6、型以及與其他原子概念的關(guān)系； 5)本體的結(jié)構(gòu)或者本體構(gòu)造的圖或者樹的角度； 6)推理的角度； 7)機(jī)器學(xué)習(xí)的角度； 8)應(yīng)用場(chǎng)景。本體相似技術(shù)還處于剛剛起步的階段，很多方面需要界定和研究。只有完善的定義了本體相似，才能在對(duì)信息進(jìn)行本體描述的基礎(chǔ)上，完成對(duì)信息的計(jì)算機(jī)理解和處理。另外，關(guān)于本體相似計(jì)算的性能以及服務(wù)質(zhì)量問題，也是一個(gè)全新的尚未被提出和界定的領(lǐng)域。在處理本體相似過程中，動(dòng)態(tài)、高效是未

7、來的發(fā)展方向。語義Web上每個(gè)文檔都是一個(gè)本體，這些文檔可以構(gòu)造成大的本體，而在這些文檔內(nèi)部，又可以拆分成小的本體。在語義Web中可以用一個(gè)或者一族本體對(duì)某個(gè)領(lǐng)域的知識(shí)進(jìn)行歸納和描述，這些本體稱為領(lǐng)域本體。在領(lǐng)域本體中定義了領(lǐng)域中基本的概念、概念的屬性以及概念之間的關(guān)系。受限本體是指用領(lǐng)域本體描述的本體內(nèi)的信息。在語義Web中，在完成對(duì)標(biāo)注后信息的本體描述后，需要計(jì)算兩個(gè)本體的相似度來判定某個(gè)本體是正例或反

8、例。目前已有的本體相似算法都是通過比較語法來計(jì)算本體的相似度，然而當(dāng)前所有包含內(nèi)容的本體都是受限本體，它們都繼承自同樣的領(lǐng)域本體，因此在受限本體之上計(jì)算相似度需要構(gòu)建新的相似算法把本體比較量化。已有的本體匹配算法大多數(shù)都沒有應(yīng)用本體的推理能力對(duì)本體中包含的關(guān)系進(jìn)行深入的挖掘，這主要是因?yàn)樵趹?yīng)用推力能力的過程中，很容易使算法陷入循環(huán)。本文提到的本體匹配算法，僅僅應(yīng)用了第一次推理的結(jié)果來比較實(shí)體之間在關(guān)系方面的相似度，這就避免了陷

9、入循環(huán)，同時(shí)又能夠應(yīng)用本體的推理能力。受限本體相似的核心原則是充分利用本體關(guān)系推理過程中生成的關(guān)系集計(jì)算相似度。本體的相似度定義從根本上是為了應(yīng)用服務(wù)的，所以基本可比屬性的定義以及權(quán)重的定義都由應(yīng)用來決定，同時(shí)二階的定義一方面充分利用了本體自身的推理能力，另一方面又避免了因?yàn)橐腙P(guān)系而造成的循環(huán)計(jì)算。信息抽取是自然語言處理和人工智能的結(jié)合。信息抽取系統(tǒng)的主要功能是從文本中抽取出特定的事實(shí)信息。信息抽取系統(tǒng)中的關(guān)鍵技術(shù)

10、主要包括：自然語言處理、命名實(shí)體識(shí)別、篇章分析及推理和知識(shí)獲取。信息抽取過程包括學(xué)習(xí)過程和應(yīng)用過程。學(xué)習(xí)過程是一個(gè)機(jī)器學(xué)習(xí)的過程，主要針對(duì)特定領(lǐng)域內(nèi)的文檔集合進(jìn)行學(xué)習(xí)，而應(yīng)用過程是針對(duì)學(xué)習(xí)的結(jié)果在未知文檔上進(jìn)行實(shí)踐。現(xiàn)有的信息抽取算法基本上都是采用自然語言處理工具對(duì)文檔進(jìn)行標(biāo)注并學(xué)習(xí)。這些算法按照學(xué)習(xí)過程的不同可以分為三類：規(guī)則學(xué)習(xí)、分類學(xué)習(xí)以及統(tǒng)計(jì)學(xué)習(xí)。這三個(gè)分類也不是孤立的，例如在規(guī)則學(xué)習(xí)算法中，對(duì)規(guī)則的取舍通常就要用到統(tǒng)

11、計(jì)。為了深入挖掘標(biāo)注后文檔中的關(guān)系，提高信息抽取的效率，我們提出了用語義Web中的本體對(duì)自然語言處理后的文檔進(jìn)行二次描述，然后應(yīng)用合理的機(jī)器學(xué)習(xí)過程來學(xué)習(xí)并應(yīng)用學(xué)習(xí)結(jié)果到未知文檔中。在本文中我們的機(jī)器學(xué)習(xí)工具是支持向量機(jī)和人工神經(jīng)網(wǎng)絡(luò)。本體自身的簡(jiǎn)單推理能力和機(jī)器學(xué)習(xí)的合理應(yīng)用是算法取得優(yōu)秀結(jié)果的關(guān)鍵。這個(gè)算法稱為基于本體關(guān)系匹配的信息抽取(OERM)。 OERM算法中關(guān)鍵的技術(shù)是本體表達(dá)方式、本體比較。采用本體來描述待抽取字

12、段的上下文關(guān)系，對(duì)原始文本內(nèi)容進(jìn)行了深入的擴(kuò)展。這是以往基于規(guī)則的抽取或基于統(tǒng)計(jì)的抽取技術(shù)的描述能力所未涉及的；而且通過本體簡(jiǎn)單的推理能力，還能夠?qū)κ芟薇倔w中蘊(yùn)涵的關(guān)系進(jìn)行深入的挖掘。另外，ANN和SVM-UM很適合這種數(shù)據(jù)稀疏而且有相當(dāng)程度的噪音的應(yīng)用，在采用合理的終止條件判定方案后，可以達(dá)到了良好的效果。 OERM算法在兩個(gè)數(shù)據(jù)集上的評(píng)測(cè)都優(yōu)于已有的信息抽取系統(tǒng)，另一方面，實(shí)驗(yàn)結(jié)果顯示，應(yīng)用一個(gè)小的訓(xùn)練集合，OERM算法就能

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

受限本體相似.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

受限本體相似.pdf

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載