不完整數(shù)據(jù)集的多視角集成分類研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩102頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、隨著通訊技術(shù),物聯(lián)網(wǎng)技術(shù),傳感器技術(shù)等技術(shù)的迅速發(fā)展,當(dāng)今幾乎在任何地方都可以產(chǎn)生數(shù)據(jù)。這些實(shí)際應(yīng)用中獲取的數(shù)據(jù),往往由于各種各樣的原因會(huì)出現(xiàn)數(shù)據(jù)缺失的情況。例如,在調(diào)查問(wèn)卷中,由于接受問(wèn)卷者個(gè)人原因,一些問(wèn)卷會(huì)出現(xiàn)拒絕回答的項(xiàng)目;在生物信息中的基因表達(dá)數(shù)據(jù)中,由于芯片的擦痕,灰塵等原因,同樣會(huì)導(dǎo)致部分?jǐn)?shù)據(jù)的缺失??紤]到傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)往往針對(duì)的是完整數(shù)據(jù),因此,如何處理不完整數(shù)據(jù)成為了機(jī)器學(xué)習(xí)中的一個(gè)重要的研究課題。當(dāng)前對(duì)不完整數(shù)據(jù)

2、集分類的研究,如對(duì)缺失值進(jìn)行填充等,多數(shù)方法都需要依賴一些假設(shè),比如隨機(jī)缺失(MAR)假設(shè),屬性獨(dú)立性假設(shè)等。集成學(xué)習(xí)方法作為不完整數(shù)據(jù)集的一種有效的處理方法,與缺失值填充的方法相比,其最大的優(yōu)點(diǎn)是不依賴MAR假設(shè),但是當(dāng)前集成方法在處理不完整數(shù)據(jù)集時(shí)仍然面臨著諸如時(shí)間復(fù)雜度高,算法效率不夠理想等問(wèn)題。
  粒度計(jì)算是近年來(lái)人工智能領(lǐng)域中模擬人類思維求解問(wèn)題的新的方法。它涵蓋了所有有關(guān)粒度的理論、方法和工具,已成為不確定性、模糊性

3、、復(fù)雜性問(wèn)題求解以及海量信息處理的重要工具。粒度計(jì)算的主要理論模型包括粗糙集理論,模糊集理論以及商空間理論。其中商空間理論是多粒度計(jì)算的主要理論模型。本文針對(duì)不完整數(shù)據(jù)集數(shù)據(jù)缺失的特點(diǎn),基于商空間理論中的多側(cè)面、多視角問(wèn)題求解的思路,提出針對(duì)不同缺失屬性組合構(gòu)造多個(gè)不同視角的分類器,以及對(duì)各個(gè)分類器重要度的度量方法,并在此基礎(chǔ)上研究了多視角分類器的優(yōu)化方法。同時(shí)本文針對(duì)癌癥基因表達(dá)式數(shù)據(jù)的特點(diǎn),提出首先進(jìn)行屬性選擇,然后利用選擇性的多視

4、角集成方式實(shí)現(xiàn)多視角的集成分類。
  本文的主要研究?jī)?nèi)容概括如下:
  (1)研究不完整數(shù)據(jù)集多視角分類器的構(gòu)建及重要度度量方法
  基于不完整數(shù)據(jù)集中存在的不完整屬性的組合,構(gòu)建不完整數(shù)據(jù)集對(duì)應(yīng)的缺失屬性樹(shù)?;谠撊笔傩詷?shù),得到一組數(shù)據(jù)子集,同時(shí)利用神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)分類器,采用Bagging策略在每個(gè)數(shù)據(jù)子集上訓(xùn)練得到一個(gè)子分類器,對(duì)于一個(gè)測(cè)試樣本,算法首先選擇合適的子分類器對(duì)其進(jìn)行預(yù)測(cè),然后利用多數(shù)投票的方式?jīng)Q定

5、其最終的類別。本文同時(shí)引入了信息熵來(lái)度量子分類器的重要度,并具體研究了幾種不同的加權(quán)方法對(duì)算法準(zhǔn)確率的影響。
  (2)研究不完整數(shù)據(jù)集多視角分類器的優(yōu)化方法
  在缺失屬性樹(shù)的基礎(chǔ)上,針對(duì)神經(jīng)網(wǎng)絡(luò)集成分類方法在子分類器過(guò)多時(shí),算法復(fù)雜度過(guò)高的問(wèn)題,提出了一種多視角集成分類的優(yōu)化方法(SNNE)。該方法通過(guò)判斷缺失屬性樹(shù)中對(duì)應(yīng)的缺失屬性集(有效屬性集合)之間的包含關(guān)系以及兩者與類別的相關(guān)度,在保證算法可預(yù)測(cè)率和準(zhǔn)確率的基礎(chǔ)上

6、,通過(guò)一個(gè)給定的閾值刪除一部分冗余的數(shù)據(jù)子集,通過(guò)減少子分類器個(gè)數(shù),有效的提高算法的執(zhí)行效率。實(shí)驗(yàn)表明,在給定閾值為0.05的情況下,算法能夠在保證準(zhǔn)確率的基礎(chǔ)上有效的提升執(zhí)行效率。
  (3)研究了基于卡方檢驗(yàn)和超限學(xué)習(xí)機(jī)的多視角集成分類方法
  針對(duì)不完整數(shù)據(jù)集中存在的與類別的相關(guān)度非常低,對(duì)分類的精度有著不利的影響的屬性。本文提出了一種基于卡方檢驗(yàn)的屬性選擇方法(C_ELM),該方法通過(guò)將傳統(tǒng)的卡方檢驗(yàn)應(yīng)用到不完整數(shù)據(jù)

7、集中,通過(guò)一個(gè)給定的閾值,選擇刪除部分與類別相關(guān)性較小的屬性。同時(shí)考慮到,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)由于采用梯度下降方法而造成時(shí)間復(fù)雜度過(guò)高的問(wèn)題,利用超限學(xué)習(xí)機(jī)作為基礎(chǔ)分類器,在缺失屬性樹(shù)的基礎(chǔ)上,構(gòu)造一組基于投票的超限學(xué)習(xí)機(jī)(v-elms)。針對(duì)由于缺失值導(dǎo)致的少量的樣本可能無(wú)法找到合適的分類器進(jìn)行預(yù)測(cè)的問(wèn)題,我們又利用單屬性訓(xùn)練得到一組備選分類器用來(lái)解決此類樣本的分類問(wèn)題。實(shí)驗(yàn)表明,通過(guò)刪除不相關(guān)屬性和采用ELM,該方法能夠有效的提升算法的預(yù)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論