基于免疫系統(tǒng)的不平衡數(shù)據(jù)分類(lèi)方法研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩111頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著云計(jì)算和移動(dòng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)進(jìn)入大數(shù)據(jù)時(shí)代,人們面對(duì)急劇膨脹的多媒體信息,需要有效的內(nèi)容管理和快速的信息查找。分類(lèi)算法通過(guò)學(xué)習(xí)已標(biāo)注數(shù)據(jù)建立模型,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)和標(biāo)簽,已經(jīng)廣泛應(yīng)用于計(jì)算機(jī)視覺(jué)、文字識(shí)別、聲音識(shí)別、文檔歸類(lèi)等領(lǐng)域。基于標(biāo)注數(shù)據(jù)的分類(lèi)算法已經(jīng)走向成熟,如樸素貝葉斯、邏輯回歸、支持向量機(jī)、決策樹(shù)等。然而,這些算法都依賴于數(shù)據(jù)集規(guī)模,按照學(xué)習(xí)理論,只有樣本規(guī)模超過(guò)規(guī)定下界時(shí),正確率才能高于臨界點(diǎn);同時(shí)不平衡數(shù)據(jù)集大量存在

2、于人們的現(xiàn)實(shí)生活中,人們更關(guān)心少數(shù)類(lèi)的樣本,錯(cuò)分少數(shù)類(lèi)所產(chǎn)生的代價(jià)更大。為了解決這個(gè)矛盾,本文致力于基于免疫系統(tǒng)的不平衡數(shù)據(jù)分類(lèi)方法研究。借鑒人體免疫系統(tǒng)的原理和特性,研究和解決二類(lèi)不平衡數(shù)據(jù)分類(lèi)問(wèn)題、多類(lèi)不平衡數(shù)據(jù)分類(lèi)問(wèn)題,密度缺失下的不平衡數(shù)據(jù)分類(lèi)問(wèn)題,以及類(lèi)內(nèi)簇不平衡下的不平衡數(shù)據(jù)分類(lèi)問(wèn)題。
  本研究主要內(nèi)容包括:⑴在二類(lèi)不平衡環(huán)境下,研究了基于免疫中心點(diǎn)的過(guò)采樣提高分類(lèi)算法性能的理論和方法。在二類(lèi)學(xué)習(xí)中,多數(shù)類(lèi)(或負(fù)類(lèi))

3、的樣本數(shù)量比少數(shù)類(lèi)(或正類(lèi))的樣本數(shù)量更多,標(biāo)準(zhǔn)分類(lèi)學(xué)習(xí)算法趨于偏向多數(shù)類(lèi),造成少數(shù)類(lèi)的錯(cuò)分率明顯高于多數(shù)類(lèi)的錯(cuò)分率。本文提出的基于免疫中心點(diǎn)的過(guò)采樣方法(ICOTE)借鑒免疫網(wǎng)絡(luò)原理,經(jīng)過(guò)繁殖、變異、抑制等過(guò)程,產(chǎn)生免疫型中心點(diǎn)來(lái)擴(kuò)充少數(shù)類(lèi)樣本,以達(dá)到樣本分布的類(lèi)平衡。免疫型中心點(diǎn)反映少數(shù)類(lèi)的分布特征,擴(kuò)張后的樣本集不會(huì)改變?cè)袠颖镜男螤睿乐剐麓氐漠a(chǎn)生,因而 ICOTE在避免過(guò)學(xué)習(xí)的同時(shí),也克服了隨機(jī)合成采樣方法不考慮樣本空間分布的

4、問(wèn)題。⑵在多類(lèi)不平衡環(huán)境下,研究了基于多免疫子網(wǎng)絡(luò)的過(guò)采樣提高分類(lèi)算法性能的理論和方法。與二類(lèi)學(xué)習(xí)相比,多類(lèi)學(xué)習(xí)面臨著搜索空間變大、算法復(fù)雜度升高、空間重合等新問(wèn)題,往往無(wú)法簡(jiǎn)單地把二類(lèi)方法照搬到多類(lèi)問(wèn)題。同時(shí),不平衡問(wèn)題變得更加突出,少數(shù)類(lèi)不止一個(gè),類(lèi)空間重疊現(xiàn)象更加普遍,造成傳統(tǒng)分類(lèi)算法忽視少數(shù)類(lèi)現(xiàn)象,更傾向降低多數(shù)類(lèi)的錯(cuò)分率。本文提出的基于免疫中心點(diǎn)的全局過(guò)采樣方法(Global-IC)借鑒免疫網(wǎng)絡(luò)原理,在每個(gè)少數(shù)類(lèi)空間生成免疫子

5、網(wǎng)絡(luò),網(wǎng)絡(luò)節(jié)點(diǎn)用來(lái)擴(kuò)充少數(shù)類(lèi)樣本,最終達(dá)到整個(gè)樣本分布的類(lèi)平衡,促使分類(lèi)算法在生成模型時(shí),給予每個(gè)類(lèi)同樣的權(quán)重,正確預(yù)測(cè)未知樣本。⑶在少數(shù)類(lèi)數(shù)據(jù)密度稀疏條件下,研究基于陰性選擇的過(guò)采樣提高分類(lèi)算法性能的理論和方法。與多數(shù)類(lèi)樣本空間相比,少數(shù)類(lèi)空間不僅樣本數(shù)量少,數(shù)據(jù)也比較稀疏,形成許多的孤立點(diǎn)或小簇,分類(lèi)算法易于向多數(shù)類(lèi)偏置。本文借鑒人體免疫系統(tǒng)的陰性選擇機(jī)制,提出非我抗原型檢測(cè)器和離散點(diǎn)檢測(cè)相結(jié)合,學(xué)習(xí)整個(gè)數(shù)據(jù)空間的分布特性,生成符合

6、少數(shù)類(lèi)密度分布的合成樣本,擴(kuò)大少數(shù)類(lèi)空間的決策區(qū)域。因?yàn)楸M可能多的利用樣本數(shù)據(jù),在少數(shù)類(lèi)空間生成更大或更稠密的決策區(qū)后,決策樹(shù)分類(lèi)算法有足夠的分類(lèi)信息,生成的決策樹(shù)能夠?qū)ξ礃?biāo)注樣本進(jìn)行正確分類(lèi)。⑷在類(lèi)內(nèi)簇不平衡條件下,研究基于形狀的過(guò)采樣提高分類(lèi)算法性能的理論和方法。不平衡問(wèn)題不簡(jiǎn)單是類(lèi)間的不平衡,而是類(lèi)內(nèi)部有更多的“小簇”,簇間的不平衡造成預(yù)測(cè)精度變低。本文借鑒免疫網(wǎng)絡(luò)原理和離散點(diǎn)檢測(cè),提出了基于形狀的過(guò)采樣方法(SBO)。SBO利用

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論