面向大規(guī)模數(shù)據(jù)分析與分類的正則化回歸算法.pdf_第1頁
已閱讀1頁,還剩113頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展及數(shù)據(jù)收集成本的不斷降低,大數(shù)據(jù)時(shí)代已經(jīng)來臨。大規(guī)模數(shù)據(jù)分析是指對(duì)規(guī)模巨大的數(shù)據(jù)進(jìn)行分析,從中獲得有利于對(duì)個(gè)體或者群組進(jìn)行辨識(shí)的對(duì)象,大規(guī)模數(shù)據(jù)分析技術(shù)的社會(huì)及市場(chǎng)需求也變得十分緊迫。降維是對(duì)數(shù)據(jù)預(yù)處理及進(jìn)一步分析的有效方式,通常采用變量選擇或者函數(shù)變換等途徑來描述關(guān)鍵的數(shù)據(jù)結(jié)構(gòu)(如局部性,判別性等等),因而在回歸分析、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘和模式識(shí)別等領(lǐng)域占據(jù)著十分重要的地位。數(shù)據(jù)降維往往能夠提供對(duì)數(shù)據(jù)更加本質(zhì)和深

2、刻的理解,因而廣泛用于特征匹配、模型解釋、數(shù)據(jù)表示等。在過去二十年中,回歸方法因模型直觀和理論豐富等特點(diǎn)受到了廣泛的關(guān)注,分片逆回歸(SIR)由于它在降維方面的有效性也吸引了很多研究者。然而,SIR的兩個(gè)缺點(diǎn)限制了它進(jìn)一步的應(yīng)用。第一,在高維數(shù)情況下SIR的計(jì)算復(fù)雜度較高。第二,在改進(jìn)特征選擇和模型解釋能力方面,投影子空間的稀疏性沒有很好的挖掘出來。另一方面,怎樣從足夠的輔助數(shù)據(jù)集中挖掘判別信息,去改進(jìn)機(jī)器智能系統(tǒng)的理解和分析能力,在大

3、數(shù)據(jù)時(shí)代是一個(gè)更加值得深入研究的課題。并且它有非常廣泛的應(yīng)用空間,包括圖像分類、視頻檢索、金融數(shù)據(jù)聚類或預(yù)測(cè)。在圖像識(shí)別方面,比如,圖像分辨率的差異容易導(dǎo)致訓(xùn)練集與測(cè)試集的數(shù)據(jù)特征有較大的差異,為直接數(shù)據(jù)降維(如主成分分析)帶來了性能上的困難;同一個(gè)對(duì)象在不同尺度或者不同視角下的觀測(cè)結(jié)果,往往能夠提供優(yōu)勢(shì)互補(bǔ)的數(shù)據(jù)描述。領(lǐng)域自適應(yīng)的任務(wù)是提取每個(gè)領(lǐng)域的判別特征并且同時(shí)提高目標(biāo)域的分類性質(zhì)。遷移學(xué)習(xí)的方法提供了一些可能的方法來解決上面提到

4、的問題。用目標(biāo)域中非常少的有標(biāo)簽的數(shù)據(jù)并同時(shí)借助于源域中大量的有標(biāo)簽的數(shù)據(jù)去學(xué)習(xí)領(lǐng)域自適應(yīng),期望用遷移源域中的判別信息去提高目標(biāo)域的分類特性。
  本研究主要內(nèi)容包括:⑴提出了一個(gè)基于相關(guān)熵和分類回歸的模型。在回歸系數(shù)中使用一個(gè)光滑的懲罰項(xiàng)替代了稀疏的限制,使得基于回歸模型的分類算法在應(yīng)用中更加靈活。更加具體的學(xué)術(shù)貢獻(xiàn)如下:在特征譜空間中求解判別式回歸系數(shù),減小數(shù)據(jù)分析的計(jì)算復(fù)雜度;引入回歸系數(shù)的稀疏約束,增強(qiáng)高維數(shù)據(jù)分析模型解的

5、解釋性;針對(duì)例外點(diǎn)和噪音數(shù)據(jù),設(shè)計(jì)快速,穩(wěn)健的分類算法。用高維面部圖像和基因微陣列數(shù)據(jù)去評(píng)估新的算法,并且和其他一些先進(jìn)的方法做了對(duì)比新方法獲得了有競(jìng)爭力的結(jié)果。⑵提出基于低秩表示和依條件轉(zhuǎn)換的遷移學(xué)習(xí)方法(LRCT),為了減少實(shí)際中可能的限制,包括計(jì)算的復(fù)雜性,和進(jìn)一步提升分類的性能。受低秩表示方法及其成功應(yīng)用的啟發(fā),LRCT希望找到一組特征表示,以合適的方式表達(dá)出數(shù)據(jù)局部和光滑特性的變換投影矩陣,用最小重構(gòu)誤差把非均勻的數(shù)據(jù)投影到一

6、個(gè)共享子空間上。新方法的創(chuàng)新點(diǎn)主要體現(xiàn)在通過一些概率假設(shè)建立了一個(gè)中間域(I),然后在中間域I和目標(biāo)域T之間求得有效的低秩表示。⑶在因果關(guān)系框架下研究條件分布不匹配問題,建立從中間域I到目標(biāo)域T之間的低秩表示關(guān)系,并由此學(xué)習(xí)領(lǐng)域自適應(yīng)特征。因此新的方法從依條件不變的特征中去利用低秩結(jié)構(gòu);在數(shù)值優(yōu)化問題上,本文重新參數(shù)化密度比(density ratio)函數(shù),把這個(gè)參數(shù)化的方程轉(zhuǎn)化成經(jīng)典的二次規(guī)劃問題,然后用選擇優(yōu)化策略的方法求解新的目

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論