支持向量機(jī)及半監(jiān)督學(xué)習(xí)中若干問題的研究.pdf_第1頁
已閱讀1頁,還剩118頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、隨著信息技術(shù)的飛速發(fā)展,在信息收集和處理的過程中,人們面臨的各種數(shù)據(jù)信息規(guī)模越來越大,構(gòu)成也越來越復(fù)雜,這使得機(jī)器學(xué)習(xí)日益受到人們的關(guān)注,成為目前研究的熱點(diǎn)問題之一.由Vapnik提出的統(tǒng)計(jì)學(xué)習(xí)理論為機(jī)器學(xué)習(xí)問題提供了理論基礎(chǔ),著重研究有限樣本的統(tǒng)計(jì)規(guī)律及學(xué)習(xí)性質(zhì),使用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,有效地提高了算法的推廣能力.支持向量機(jī)是統(tǒng)計(jì)學(xué)習(xí)理論的最新發(fā)展,它具有全局最優(yōu)、適應(yīng)性強(qiáng)、推廣能力強(qiáng)以及解的稀疏性等優(yōu)點(diǎn),能較好地解決小樣本、非線性、

2、過學(xué)習(xí)、維數(shù)災(zāi)難和局部極小等實(shí)際應(yīng)用中的難題,是機(jī)器學(xué)習(xí)領(lǐng)域的又一里程碑,從而廣泛應(yīng)用于模式識(shí)別、回歸估計(jì)、函數(shù)逼近以及密度估計(jì)等領(lǐng)城.近年來,受支持向量機(jī)的這些優(yōu)勢(shì)的啟發(fā),有學(xué)者提出了一些支持向量機(jī)的推廣算法,比如最小二乘支持向量機(jī),中心支持向量機(jī),超球支持向量機(jī)(也稱為支持向量域描述),基于一個(gè)球的模式分類方法等,分別從不同的方面對(duì)支持向量機(jī)進(jìn)行了完善和補(bǔ)充.許多機(jī)器學(xué)習(xí)問題中,大量可獲得的數(shù)據(jù)中僅有一小部分容易獲得類別標(biāo)簽,而另一

3、相對(duì)大量的部分由于各種原因(不容易獲得類別標(biāo)簽或者獲得標(biāo)簽的代價(jià)較大)而未能獲得標(biāo)簽,同時(shí)利用這些樣本(包括已標(biāo)簽樣本和未標(biāo)簽樣本)進(jìn)行學(xué)習(xí)的問題被稱為半監(jiān)督學(xué)習(xí).本文主要研究支持向量機(jī)及其幾種推廣方法與半監(jiān)督學(xué)習(xí)中存在的若干問題,主要工作如下:
   1.研究了大樣本條件下,提高支持向量機(jī)學(xué)習(xí)速度和精度的問題.針對(duì)支持向量機(jī)中大規(guī)模樣本集訓(xùn)練速度慢且分類精度易受野點(diǎn)影響的問題,提出基于殼向量和中心向量的支持向量機(jī)算法.其基本步

4、驟是:首先分別求取每類樣本點(diǎn)的殼向量和中心向量;然后將求出的殼向量作為新的訓(xùn)練集進(jìn)行標(biāo)準(zhǔn)的支持向量機(jī)訓(xùn)練得到超平面的法向量;最后利用中心向量更新法向量以減少野點(diǎn)的影響得到最終的分類器.實(shí)驗(yàn)表明采用這種學(xué)習(xí)策略,不僅加快了訓(xùn)練速度同時(shí)提高了分類精度.
   2.研究了支持向量機(jī)的兩種推廣方法(最小二乘支持向量機(jī)和基于一個(gè)球的模式分類方法)對(duì)不平衡數(shù)據(jù)集的分類問題.針對(duì)最小二乘支持向量機(jī)對(duì)不平衡數(shù)據(jù)集的分類問題,同時(shí)考慮各類樣本的數(shù)

5、量和樣本分散程度的不同,對(duì)分離超平面進(jìn)行調(diào)整.該方法克服傳統(tǒng)算法只考慮樣本數(shù)量不平衡的不足,提高了最小二乘支持向量機(jī)的泛化能力.針對(duì)基于一個(gè)球的模式分類方法對(duì)不平衡數(shù)據(jù)的分類問題,通過引入兩個(gè)參數(shù)來分別控制兩類錯(cuò)分率的上界,不僅提高了不平衡數(shù)據(jù)集的分類和預(yù)測(cè)的性能,而且大大縮小了參數(shù)的選擇范圍。實(shí)驗(yàn)表明我們的方法可以有效提高不平衡數(shù)據(jù)的分類性能。
   3.本文從以下兩條途徑研究了半監(jiān)督學(xué)習(xí)中的直推式學(xué)習(xí)方法,一是,針對(duì)Chen

6、提出的漸進(jìn)直推式支持向量機(jī)學(xué)習(xí)算法存在的諸如訓(xùn)練速度慢、回溯式學(xué)習(xí)多、學(xué)習(xí)性能不穩(wěn)定等缺點(diǎn),提出兩種改進(jìn)的漸進(jìn)直推式支持向量機(jī)分類學(xué)習(xí)算法。它們繼承漸進(jìn)直推支持向量機(jī)漸進(jìn)賦值和動(dòng)態(tài)調(diào)整的規(guī)則,同時(shí)利用支持向量的信息或者可信度選擇新標(biāo)注的無標(biāo)簽樣本點(diǎn),結(jié)合增量支持向量機(jī)或支持向量預(yù)選取方法減少訓(xùn)練代價(jià).實(shí)驗(yàn)結(jié)果表明所提算法不僅能較大幅度地提高算法的速度,而且在一般情況下能提高算法的精度。二是,針對(duì)支持向量機(jī)的一種推廣算法一基于一個(gè)球的模式

7、分類方法提出了其直推式學(xué)習(xí)策略,即通過一個(gè)超球面將兩類數(shù)據(jù)以最大的分離比率分離,同時(shí)利用有標(biāo)簽樣本點(diǎn)和無標(biāo)簽樣本點(diǎn)來建立一個(gè)超球分類器的漸進(jìn)直推式學(xué)習(xí)算法,這種算法在沒有足夠的有標(biāo)簽樣本的信息時(shí)利用了無標(biāo)簽樣本所提供的額外的信息,獲得了更好的分類性能.實(shí)驗(yàn)結(jié)果表明該算法確實(shí)具有更好的性能。
   4.本文研究了在已知少量有標(biāo)簽樣本點(diǎn)和大量無標(biāo)簽樣本點(diǎn)條件下的半監(jiān)督野點(diǎn)探測(cè)問題。野點(diǎn)(也稱離群點(diǎn))探測(cè)問題一直是機(jī)器學(xué)習(xí)的一個(gè)難題,

8、在許多實(shí)際問題中,野點(diǎn)往往是人們更感興趣的更重要的樣本點(diǎn),比如在網(wǎng)絡(luò)的入侵檢測(cè)、故障診斷、疾病診斷等領(lǐng)域中。本文將粗糙集和模糊集理論應(yīng)用于半監(jiān)督野點(diǎn)探測(cè)問題中,提出了模糊粗糙半監(jiān)督野點(diǎn)探測(cè)方法。這個(gè)方法是在少量有標(biāo)簽的樣本點(diǎn)和模糊粗糙C均值聚類算法的幫助下,通過一個(gè)目標(biāo)函數(shù),同時(shí)最小化聚類平方誤差、有標(biāo)簽樣本點(diǎn)的分類誤差和野點(diǎn)的個(gè)數(shù)。每個(gè)聚類用一個(gè)中心、一個(gè)清晰的下近似和一個(gè)模糊邊界來表示,只對(duì)位于邊界的樣本點(diǎn)進(jìn)一步討論其是否為野點(diǎn)的可

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論