2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩6頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、主成分分析主成分分析主成分分析(PrincipalComponentAnalysis,PCA)或者主元分析。是一種掌握事物主要矛盾的統(tǒng)計(jì)分析方法,它可以從多元事物中解析出主要影響因素,揭示事物的本質(zhì),簡(jiǎn)化復(fù)雜的問題。計(jì)算主成分的目的是將高維數(shù)據(jù)投影到較低維空間。給定n個(gè)變量的m個(gè)觀察值,形成一個(gè)n′m的數(shù)據(jù)矩陣,n通常比較大。對(duì)于一個(gè)由多個(gè)變量描述的復(fù)雜事物,人們難以認(rèn)識(shí),那么是否可以抓住事物主要方面進(jìn)行重點(diǎn)分析呢?如果事物的主要方面剛

2、好體現(xiàn)在幾個(gè)主要變量上,我們只需要將這幾個(gè)變量分離出來(lái),進(jìn)行詳細(xì)分析。但是,在一般情況下,并不能直接找出這樣的關(guān)鍵變量。這時(shí)我們可以用原有變量的線性組合來(lái)表示事物的主要方面,PCA就是這樣一種分析方法。PCA主要用于數(shù)據(jù)降維,對(duì)于一系列例子的特征組成的多維向量,多維向量里的某些元素本身沒有區(qū)分性,比如某個(gè)元素在所有的例子中都為1,或者與1差距不大,那么這個(gè)元素本身就沒有區(qū)分性,用它做特征來(lái)區(qū)分,貢獻(xiàn)會(huì)非常小。所以我們的目的是找那些變化大

3、的元素,即方差大的那些維,而去除掉那些變化不大的維,從而使特征留下的都是“精品”,而且計(jì)算量也變小了。對(duì)于一個(gè)k維的特征來(lái)說(shuō),相當(dāng)于它的每一維特征與其他維都是正交的(相當(dāng)于在多維坐標(biāo)系中,坐標(biāo)軸都是垂直的),那么我們可以變化這些維的坐標(biāo)系,從而使這個(gè)特征在某些維上方差大,而在某些維上方差很小。例如,一個(gè)45度傾斜的橢圓,在第一坐標(biāo)系,如果按照xy坐標(biāo)來(lái)投影,這些點(diǎn)的x和y的屬性很難用于區(qū)分他們,因?yàn)樗麄冊(cè)趚y軸上坐標(biāo)變化的方差都差不多,

4、我們無(wú)法根據(jù)這個(gè)點(diǎn)的某個(gè)x屬性來(lái)判斷這個(gè)點(diǎn)是哪個(gè),而如果將坐標(biāo)軸旋轉(zhuǎn),以橢圓長(zhǎng)軸為x軸,則橢圓在長(zhǎng)軸上的分布比較長(zhǎng),方差大,而在短軸上的分布短,方差小,所以可以考慮只保留這些點(diǎn)的長(zhǎng)軸屬性,來(lái)區(qū)分橢圓上的點(diǎn),這樣,區(qū)分性比xy軸的方法要好!所以我們的做法就是求得一個(gè)k維特征的投影矩陣,這個(gè)投影矩陣可以將特征從高維降到低維。投影矩陣也可以叫做變換矩陣。新的低維特征必須每個(gè)維都正交,特征向量都是正交的。通過(guò)求樣本矩陣的協(xié)方差矩陣,然后求出協(xié)方

5、差矩陣的特征向量,這些特征向量就可以構(gòu)成這個(gè)投影矩陣了。特征向量的選擇取決于協(xié)方差矩陣的特征值的大小。舉例:對(duì)于一個(gè)訓(xùn)練集,100個(gè)對(duì)象模板,特征是10維,那么它可以建立一個(gè)10010的矩陣,作為樣本。求這個(gè)樣本的協(xié)方差矩陣,得到一個(gè)1010的協(xié)方差矩陣,然后求出這個(gè)協(xié)方差矩陣的特征值和特征向量,應(yīng)該有10個(gè)特征值和特征向量,我們根據(jù)特征值的大小,取前四個(gè)特征值所對(duì)應(yīng)的特征向量,構(gòu)成一個(gè)104的矩陣,這個(gè)矩陣就是我們要求的特征矩陣,10

6、010的樣本矩陣乘以這個(gè)104的特征矩陣,就得到了一個(gè)1004的新的降維之后的樣本矩陣,每個(gè)特征的維數(shù)下降了。當(dāng)給定一個(gè)測(cè)試的特征集之后,比如110維的特征,乘以上面得到的104的特征矩陣,便可以得到一個(gè)14的特征,用這個(gè)特征去分類。所以做PCA實(shí)際上是求得這個(gè)投影矩陣,用高維的特征乘以這個(gè)投影矩陣,便可以將高維特征的維數(shù)下降到指定的維數(shù)。PCA的目標(biāo)是尋找r(rn)個(gè)新變量,使它們反映事物的主要特征,壓縮原有數(shù)據(jù)矩陣的規(guī)模。每個(gè)新變量

7、是原有變量的線性組合,體現(xiàn)原有變量的綜合效果,具有一函數(shù)描述COEFF=princomp(X)perfmsprincipalcomponentsanalysis(PCA)onthenbypdatamatrixXreturnstheprincipalcomponentcoefficientsalsoknownasloadings.RowsofXcrespondtoobservationscolumnstovariables.COEFFis

8、apbypmatrixeachcolumncontainingcoefficientsfoneprincipalcomponent.Thecolumnsareinderofdecreasingcomponentvariance.在n行p列的數(shù)據(jù)集X上做主成分分析。返回主成分系數(shù)。X的每行表示一個(gè)樣本的觀測(cè)值,每一列表示特征變量。COEFF是一個(gè)p行p列的矩陣,每一列包含一個(gè)主成分的系數(shù),列是按主成分變量遞減順序排列。(按照這個(gè)翻譯很難理

9、解,其實(shí)COEFF是X矩陣所對(duì)應(yīng)的協(xié)方差陣V的所有特征向量組成的矩陣,即變換矩陣或稱投影矩陣,COEFF每列對(duì)應(yīng)一個(gè)特征值的特征向量,列的排列順序是按特征值的大小遞減排序,后面有具體例子解釋,見說(shuō)明說(shuō)明1)princompcentersXbysubtractingoffcolumnmeansbutdoesnotrescalethecolumnsofX.Toperfmprincipalcomponentsanalysiswithstard

10、izedvariablesthatisbasedoncrelationsuseprincomp(zsce(X)).Toperfmprincipalcomponentsanalysisdirectlyonacovariancecrelationmatrixusepcacov.計(jì)算PCA的時(shí)候,MATLAB自動(dòng)對(duì)列進(jìn)行了去均值的操作,但是并不對(duì)數(shù)據(jù)進(jìn)行規(guī)格化,如果要規(guī)格化的話,用princomp(zsce(X))。另外,如果直接有現(xiàn)成的協(xié)方

11、差陣,用函數(shù)pcacov來(lái)計(jì)算。[COEFFSCE]=princomp(X)returnsSCEtheprincipalcomponentscesthatistherepresentationofXintheprincipalcomponentspace.RowsofSCEcrespondtoobservationscolumnstocomponents.返回的SCE是對(duì)主分的打分,也就是說(shuō)原X矩陣在主成分空間的表示。SCE每行對(duì)應(yīng)樣本

12、觀測(cè)值,每列對(duì)應(yīng)一個(gè)主成份(變量),它的行和列的數(shù)目和X的行列數(shù)目相同。[COEFFSCElatent]=princomp(X)returnslatentavectcontainingtheeigenvaluesofthecovariancematrixofX.返回的latent是一個(gè)向量,它是X所對(duì)應(yīng)的協(xié)方差矩陣的特征值向量。[COEFFSCElatenttsquare]=princomp(X)returnstsquarewhichc

13、ontainsHotellingsT2statisticfeachdatapoint.返回的tsquare,是表示對(duì)每個(gè)樣本點(diǎn)Hotelling的T方統(tǒng)計(jì)量(我也不很清楚是什么東東)。Thescesarethedatafmedbytransfmingtheiginaldataintothespaceoftheprincipalcomponents.Thevaluesofthevectlatentarethevarianceoftheco

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論