版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、隨著通訊技術(shù),物聯(lián)網(wǎng)技術(shù),傳感器技術(shù)等技術(shù)的迅速發(fā)展,當(dāng)今幾乎在任何地方都可以產(chǎn)生數(shù)據(jù)。這些實際應(yīng)用中獲取的數(shù)據(jù),往往由于各種各樣的原因會出現(xiàn)數(shù)據(jù)缺失的情況。例如,在調(diào)查問卷中,由于接受問卷者個人原因,一些問卷會出現(xiàn)拒絕回答的項目;在生物信息中的基因表達(dá)數(shù)據(jù)中,由于芯片的擦痕,灰塵等原因,同樣會導(dǎo)致部分?jǐn)?shù)據(jù)的缺失。考慮到傳統(tǒng)的機器學(xué)習(xí)技術(shù)往往針對的是完整數(shù)據(jù),因此,如何處理不完整數(shù)據(jù)成為了機器學(xué)習(xí)中的一個重要的研究課題。當(dāng)前對不完整數(shù)據(jù)
2、集分類的研究,如對缺失值進行填充等,多數(shù)方法都需要依賴一些假設(shè),比如隨機缺失(MAR)假設(shè),屬性獨立性假設(shè)等。集成學(xué)習(xí)方法作為不完整數(shù)據(jù)集的一種有效的處理方法,與缺失值填充的方法相比,其最大的優(yōu)點是不依賴MAR假設(shè),但是當(dāng)前集成方法在處理不完整數(shù)據(jù)集時仍然面臨著諸如時間復(fù)雜度高,算法效率不夠理想等問題。
粒度計算是近年來人工智能領(lǐng)域中模擬人類思維求解問題的新的方法。它涵蓋了所有有關(guān)粒度的理論、方法和工具,已成為不確定性、模糊性
3、、復(fù)雜性問題求解以及海量信息處理的重要工具。粒度計算的主要理論模型包括粗糙集理論,模糊集理論以及商空間理論。其中商空間理論是多粒度計算的主要理論模型。本文針對不完整數(shù)據(jù)集數(shù)據(jù)缺失的特點,基于商空間理論中的多側(cè)面、多視角問題求解的思路,提出針對不同缺失屬性組合構(gòu)造多個不同視角的分類器,以及對各個分類器重要度的度量方法,并在此基礎(chǔ)上研究了多視角分類器的優(yōu)化方法。同時本文針對癌癥基因表達(dá)式數(shù)據(jù)的特點,提出首先進行屬性選擇,然后利用選擇性的多視
4、角集成方式實現(xiàn)多視角的集成分類。
本文的主要研究內(nèi)容概括如下:
(1)研究不完整數(shù)據(jù)集多視角分類器的構(gòu)建及重要度度量方法
基于不完整數(shù)據(jù)集中存在的不完整屬性的組合,構(gòu)建不完整數(shù)據(jù)集對應(yīng)的缺失屬性樹?;谠撊笔傩詷洌玫揭唤M數(shù)據(jù)子集,同時利用神經(jīng)網(wǎng)絡(luò)作為基礎(chǔ)分類器,采用Bagging策略在每個數(shù)據(jù)子集上訓(xùn)練得到一個子分類器,對于一個測試樣本,算法首先選擇合適的子分類器對其進行預(yù)測,然后利用多數(shù)投票的方式?jīng)Q定
5、其最終的類別。本文同時引入了信息熵來度量子分類器的重要度,并具體研究了幾種不同的加權(quán)方法對算法準(zhǔn)確率的影響。
(2)研究不完整數(shù)據(jù)集多視角分類器的優(yōu)化方法
在缺失屬性樹的基礎(chǔ)上,針對神經(jīng)網(wǎng)絡(luò)集成分類方法在子分類器過多時,算法復(fù)雜度過高的問題,提出了一種多視角集成分類的優(yōu)化方法(SNNE)。該方法通過判斷缺失屬性樹中對應(yīng)的缺失屬性集(有效屬性集合)之間的包含關(guān)系以及兩者與類別的相關(guān)度,在保證算法可預(yù)測率和準(zhǔn)確率的基礎(chǔ)上
6、,通過一個給定的閾值刪除一部分冗余的數(shù)據(jù)子集,通過減少子分類器個數(shù),有效的提高算法的執(zhí)行效率。實驗表明,在給定閾值為0.05的情況下,算法能夠在保證準(zhǔn)確率的基礎(chǔ)上有效的提升執(zhí)行效率。
(3)研究了基于卡方檢驗和超限學(xué)習(xí)機的多視角集成分類方法
針對不完整數(shù)據(jù)集中存在的與類別的相關(guān)度非常低,對分類的精度有著不利的影響的屬性。本文提出了一種基于卡方檢驗的屬性選擇方法(C_ELM),該方法通過將傳統(tǒng)的卡方檢驗應(yīng)用到不完整數(shù)據(jù)
7、集中,通過一個給定的閾值,選擇刪除部分與類別相關(guān)性較小的屬性。同時考慮到,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)由于采用梯度下降方法而造成時間復(fù)雜度過高的問題,利用超限學(xué)習(xí)機作為基礎(chǔ)分類器,在缺失屬性樹的基礎(chǔ)上,構(gòu)造一組基于投票的超限學(xué)習(xí)機(v-elms)。針對由于缺失值導(dǎo)致的少量的樣本可能無法找到合適的分類器進行預(yù)測的問題,我們又利用單屬性訓(xùn)練得到一組備選分類器用來解決此類樣本的分類問題。實驗表明,通過刪除不相關(guān)屬性和采用ELM,該方法能夠有效的提升算法的預(yù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 不完整數(shù)據(jù)集成分類算法的研究.pdf
- 不完整數(shù)據(jù)集模糊聚類算法研究.pdf
- 基于不完整數(shù)據(jù)處理方法的貝葉斯分類器研究.pdf
- 不完整數(shù)據(jù)上SKYLINE偏好查詢技術(shù)研究.pdf
- 不完整數(shù)據(jù)庫中的關(guān)聯(lián)規(guī)則挖掘研究.pdf
- 基于度量學(xué)習(xí)的不完整數(shù)據(jù)聚類方法研究.pdf
- 重復(fù)和不完整數(shù)據(jù)的清理方法研究及應(yīng)用.pdf
- 不完整數(shù)據(jù)減法聚類填充算法研究與應(yīng)用.pdf
- 基于ROUSTIDA算法的不完整數(shù)據(jù)處理分析與實現(xiàn).pdf
- 不完整測量數(shù)據(jù)的概念建構(gòu).doc
- 不完整數(shù)據(jù)的貝葉斯網(wǎng)絡(luò)參數(shù)學(xué)習(xí)新算法.pdf
- vb不完整的論文
- 不完整投影數(shù)據(jù)下X射線CT重構(gòu)算法研究.pdf
- 基于不完整電信數(shù)據(jù)的用戶相似性查詢.pdf
- 20140519 裝配圖不完整.dwg
- 20140519 裝配圖不完整.dwg
- 20140519 裝配圖不完整.dwg
- 考慮不完整數(shù)據(jù)傳輸?shù)母叱曀亠w行器縱向動態(tài)預(yù)測控制研究.pdf
- 20140519 裝配圖不完整.dwg
- 不完整關(guān)系數(shù)據(jù)庫中關(guān)聯(lián)規(guī)則挖掘問題的研究.pdf
評論
0/150
提交評論