版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)等科學(xué)技術(shù)的飛速發(fā)展,許多實(shí)際應(yīng)用產(chǎn)生的數(shù)據(jù)規(guī)模越來越大,維度越來越高。由于高維數(shù)據(jù)的普遍性和重要性,研究高維數(shù)據(jù)挖掘具有非常重要的意義,因而在學(xué)術(shù)界引起了高維數(shù)據(jù)挖掘研究熱潮的興起。目前研究的熱點(diǎn)主要集中在高維數(shù)據(jù)分類上。由于受維度效應(yīng)的影響,許多在低維數(shù)據(jù)上表現(xiàn)良好的分類方法運(yùn)用在高維數(shù)據(jù)上時(shí)無法獲得好的分類效果,因此,高維數(shù)據(jù)分類對傳統(tǒng)的分類技術(shù)而言是新的挑戰(zhàn)。
高維數(shù)據(jù)分類具有重要的意義,其能幫助人們
2、自動(dòng)分類數(shù)據(jù)所屬的類別。譬如,新聞文本的自動(dòng)分類,基因表達(dá)的所屬功能的自動(dòng)判別,網(wǎng)絡(luò)營銷中不同興趣用戶的區(qū)分,輿情分析中有用信息的過濾等。然而對于高維數(shù)據(jù)的分類問題,目前的研究結(jié)果和技術(shù)還很少,高維數(shù)據(jù)分類存在許多研究問題需要解決。因此,本文針對高維數(shù)據(jù)分類展開研究,主要考慮多噪音屬性的高維數(shù)據(jù)分類問題、多領(lǐng)域轉(zhuǎn)移學(xué)習(xí)問題、多類標(biāo)學(xué)習(xí)問題、多實(shí)例多類標(biāo)學(xué)習(xí)問題,提出系列算法來解決這四個(gè)研究問題。本文的主要研究內(nèi)容和創(chuàng)新包括:
3、1.針對多噪音屬性的高維數(shù)據(jù)分類問題,本文提出了基于分層抽樣的隨機(jī)森林子空間選擇方法。針對不同高維數(shù)據(jù)類型上的分類問題。本文通過隨機(jī)森林為載體提出一系列的分層抽樣隨機(jī)森林算法。針對高噪音屬性數(shù)據(jù)分類,提出了SRF算法。該方法能夠有效提高包含大量噪音屬性的高維數(shù)據(jù)的分類精度。針對不平衡文本數(shù)據(jù)分類,提出了ForesTexter算法。該方法能夠有效提高不平衡數(shù)據(jù)中小樣本類別的分類精度。針對全基因組數(shù)據(jù)分析,提出了GWA-SRF算法。該方法能
4、夠有效避免窮舉搜素最優(yōu)子空間大小的計(jì)算代價(jià),并且自動(dòng)計(jì)算屬性重要性,發(fā)現(xiàn)與研究疾病相關(guān)的重要屬性。這些方法的提出為高維數(shù)據(jù)分類帶來更多更好的選擇。
2.針對高維數(shù)據(jù)的多領(lǐng)域轉(zhuǎn)移學(xué)習(xí),本文提出了基于聯(lián)合馬爾可夫鏈的MT-Learn算法。該算法通過構(gòu)建相同樣本空間內(nèi)的樣本相似性關(guān)系,以及不同樣本空間之間的樣本相似性關(guān)系,將所有樣本關(guān)聯(lián)在一個(gè)聯(lián)合馬爾可夫鏈的轉(zhuǎn)移概率圖中進(jìn)行隨機(jī)游走,最后得到一個(gè)穩(wěn)態(tài)概率集合,該集合代表不同樣本空間中
5、各個(gè)學(xué)習(xí)任務(wù)的分類結(jié)果。本文從理論上分析證明了MT-Learn算法解的存在性、唯一性以及求解算法收斂性。在圖像和文本數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明MT-Learn算法能夠在多領(lǐng)域轉(zhuǎn)移學(xué)習(xí)問題上獲得較好的分類精度。
3.針對多類標(biāo)學(xué)習(xí)問題,本文提出了基于層次樹模型的ML-Tree算法。該算法的特點(diǎn)包括以下三方面:1)層次樹中每個(gè)節(jié)點(diǎn)都能進(jìn)行學(xué)習(xí)和多類標(biāo)預(yù)測;2)父節(jié)點(diǎn)學(xué)習(xí)的預(yù)測類標(biāo)可以傳遞和繼承給子節(jié)點(diǎn);3)節(jié)點(diǎn)間的類標(biāo)傳遞模式能夠有效地
6、對多類標(biāo)數(shù)據(jù)進(jìn)行分類,并且自動(dòng)發(fā)現(xiàn)類標(biāo)之間的關(guān)系。在多類標(biāo)數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果表明ML-Tree算法的分類結(jié)果明顯優(yōu)于傳統(tǒng)算法。
4.針對多實(shí)例多類標(biāo)學(xué)習(xí)問題,本文提出了基于馬爾可夫鏈模型的Markov-MIML算法。該算法通過實(shí)例與實(shí)例之間相似性關(guān)系,以及對象與實(shí)例之間從屬關(guān)系進(jìn)行學(xué)習(xí),推衍出對象與對象之間相似性關(guān)系。算法中通過構(gòu)建馬爾可夫鏈模型將所有對象關(guān)聯(lián)在一個(gè)馬爾科夫鏈的轉(zhuǎn)移概率圖中進(jìn)行隨機(jī)游走,最后得到一個(gè)穩(wěn)態(tài)概率分布。
7、該分布代表多實(shí)例多類標(biāo)對象的類標(biāo)排序結(jié)果。本文從理論上分析了Markov-MIML算法解的存在性、唯一性以及求解算法收斂性。在圖像和文本數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明Markov-MIML算法能夠優(yōu)于傳統(tǒng)MIML算法。
總體而言,本文圍繞多噪音屬性的高維數(shù)據(jù)分類、多領(lǐng)域轉(zhuǎn)移學(xué)習(xí)、多類標(biāo)學(xué)習(xí)、多實(shí)例多類標(biāo)學(xué)習(xí)這四個(gè)研究問題,提出了SRF算法,MT-Learn算法, ML-Tree算法和Markov-MIML算法。本文的研究將推動(dòng)高維數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 高維數(shù)據(jù)的若干聚類問題及算法研究.pdf
- 高維數(shù)據(jù)判別分析問題的若干研究.pdf
- 基于EP模式的高維數(shù)據(jù)分類算法研究.pdf
- 高維數(shù)據(jù)聚類技術(shù)中的若干算法研究.pdf
- 高維數(shù)據(jù)挖掘中若干關(guān)鍵問題的研究.pdf
- 高維小樣本數(shù)據(jù)的特征提取及分類器算法研究.pdf
- 高維分類型數(shù)據(jù)子空間聚類算法研究.pdf
- 面向高維小樣本數(shù)據(jù)的分類特征選擇算法研究.pdf
- 高維數(shù)據(jù)的維數(shù)約簡算法研究.pdf
- 余弦度量下的高維數(shù)據(jù)降維及分類方法研究.pdf
- 基于全信息熵的高維分類型數(shù)據(jù)子空間算法.pdf
- 南方主要喬木樹種高光譜數(shù)據(jù)降維組合分類算法研究.pdf
- 高維數(shù)據(jù)聚類算法及應(yīng)用研究.pdf
- 數(shù)據(jù)降維中若干問題的研究及應(yīng)用.pdf
- 基于密度子空間與零空間的高維數(shù)據(jù)分類算法研究.pdf
- 基于蟻群分類算法的數(shù)據(jù)分類問題研究.pdf
- 高光譜數(shù)據(jù)降維算法研究.pdf
- 面向高維數(shù)據(jù)的特征選擇算法研究.pdf
- 高維數(shù)據(jù)下的因果發(fā)現(xiàn)算法研究.pdf
- 高維數(shù)據(jù)投影聚類算法的研究.pdf
評論
0/150
提交評論