關(guān)系分類模型的學(xué)習(xí)界限與應(yīng)用.pdf_第1頁
已閱讀1頁,還剩111頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、人類信息社會的飛速發(fā)展,產(chǎn)生了海量的信息。這些信息一般呈現(xiàn)復(fù)雜的關(guān)系,如社交網(wǎng)絡(luò)、網(wǎng)頁等,它們不僅數(shù)據(jù)內(nèi)部關(guān)系復(fù)雜,數(shù)據(jù)外部也通過鏈接、關(guān)注、訂閱等聯(lián)系起來。雖然人類可以利用機器學(xué)習(xí)方法,從這些海量信息中得出有價值的模式和知識,來解決各種社會、生活方面的問題,然而目前最常用的統(tǒng)計機器學(xué)習(xí)方法,卻常常忽略數(shù)據(jù)內(nèi)部和外部的聯(lián)系,模型的學(xué)習(xí)大都建立在數(shù)據(jù)獨立同分布的假設(shè)基礎(chǔ)上,導(dǎo)致模型對于關(guān)聯(lián)數(shù)據(jù)的擬合效果不甚理想。
  為了解決以上問

2、題,研究者提出了統(tǒng)計關(guān)系學(xué)習(xí)(Statistical Relational Learning,SRL)。統(tǒng)計關(guān)系學(xué)習(xí)又稱概率邏輯學(xué)習(xí),目標(biāo)是挖掘關(guān)系數(shù)據(jù)中的模式、邏輯、概率分布等信息,通過結(jié)構(gòu)和參數(shù)學(xué)習(xí)建立學(xué)習(xí)模型,最終利用模型對關(guān)系數(shù)據(jù)進行推理和分類。因為它結(jié)合了知識庫與概率模型,從而具有解決復(fù)雜領(lǐng)域問題的能力。統(tǒng)計關(guān)系學(xué)習(xí)已經(jīng)成為人工智能和模式識別領(lǐng)域的一個研究熱點,在生物信息分析、在線社交網(wǎng)絡(luò)分析、自然語言處理、復(fù)雜數(shù)據(jù)挖掘等領(lǐng)域

3、,都取得了成功應(yīng)用。
  本文主要研究統(tǒng)計關(guān)系模型在分類中的應(yīng)用。用于分類的統(tǒng)計關(guān)系學(xué)習(xí)模型通常稱為關(guān)系分類模型(Relation Classification model,RC model)。關(guān)系分類模型在學(xué)習(xí)過程中,會受到樣本間關(guān)系的影響。有研究工作表明,當(dāng)關(guān)系數(shù)據(jù)具有很高的關(guān)系自相關(guān)值,關(guān)系分類模型學(xué)習(xí)的結(jié)果將優(yōu)于傳統(tǒng)的分類模型。然而,由于涉及關(guān)系分類模型的一般學(xué)習(xí)界限的理論研究相對較少,使得研究者只能憑借經(jīng)驗來控制分類模型

4、的學(xué)習(xí)過程,導(dǎo)致分類模型的泛化性能較差。因此,非常有必要針對該問題進行深入的研究,加深對關(guān)系分類模型學(xué)習(xí)過程的理解,進而優(yōu)化學(xué)習(xí)的過程。另外,在網(wǎng)絡(luò)安全相關(guān)的態(tài)勢感知、網(wǎng)絡(luò)輿論分析問題中,由于采集的數(shù)據(jù)呈現(xiàn)出很高的相關(guān)性,因此在這些問題中應(yīng)用關(guān)系分類模型具有很強的現(xiàn)實需求。鑒于以上考慮,本文主要研究以下4個方面:
  1.針對關(guān)系分類模型缺少準(zhǔn)確的復(fù)雜性度量和一般學(xué)習(xí)界限的問題,提出一個新的衡量關(guān)系分類模型關(guān)聯(lián)數(shù)據(jù)能力的復(fù)雜性度量

5、——關(guān)系維。證明了該復(fù)雜度和關(guān)系分類模型的生長函數(shù)之間的關(guān)系,推導(dǎo)出有限VC維和有限關(guān)系維情況下的學(xué)習(xí)界限。然后分析了該界限可學(xué)習(xí)和有意義的條件,并對界限的可行性進行了詳細(xì)的分析。最后分析了基于馬爾科夫邏輯網(wǎng)的傳統(tǒng)學(xué)習(xí)界限和關(guān)系分類中的學(xué)習(xí)情況,實驗結(jié)果表明提出的界限能夠解釋實際關(guān)系分類中遇到的一些問題。在社交網(wǎng)絡(luò)相關(guān)分析和具有內(nèi)在關(guān)聯(lián)性的網(wǎng)絡(luò)安全數(shù)據(jù)分析中有廣泛的應(yīng)用前景。
  2.針對關(guān)系分類模型缺少穩(wěn)定性度量和穩(wěn)定學(xué)習(xí)算法的

6、問題,定義了關(guān)系分類模型的穩(wěn)定性測度——依賴穩(wěn)定性,得出一個基于依賴穩(wěn)定性的學(xué)習(xí)界限。根據(jù)對該界限的詳細(xì)分析,設(shè)計了一個穩(wěn)定的關(guān)系分類模型學(xué)習(xí)算法。最后實驗結(jié)果表明該算法增加了關(guān)系分類模型的穩(wěn)定性,同時降低了其經(jīng)驗風(fēng)險和真實風(fēng)險之間的差距。
  3.針對多領(lǐng)域關(guān)系分類問題,設(shè)計了一個多關(guān)系領(lǐng)域遷移學(xué)習(xí)算法,該算法能夠?qū)⒍鄠€領(lǐng)域的知識進行融合、雜交和創(chuàng)新,并將這些知識存儲在一個不確定的知識超圖中。然后提出一個精確地和一個近似的期望支

7、持度算法,從不確定的知識超圖中有效地挖掘頻繁子知識超圖。最后將這些頻繁子知識超圖,即多個關(guān)系分類之間蘊含的有價值的核心知識優(yōu)先遷移到目標(biāo)域中。實驗結(jié)果表明我們的算法在準(zhǔn)確性方面優(yōu)于目前最好的關(guān)系遷移學(xué)習(xí)算法。
  4.將上述理論和算法應(yīng)用于網(wǎng)絡(luò)可用性預(yù)估、網(wǎng)絡(luò)輿論領(lǐng)袖識別、垃圾郵件分類和網(wǎng)絡(luò)輿論傾向性分析中,驗證了本文提出的學(xué)習(xí)理論和算法在網(wǎng)絡(luò)安全問題中的有效性。
  通過以上的研究,本文建立了關(guān)系分類模型的一般學(xué)習(xí)界限理論

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論