版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、第六章 主成分分析,第一節(jié) 引言,第二節(jié) 主成分的幾何意義及數(shù)學(xué) 推導(dǎo),第三節(jié) 主成分的性質(zhì),第四節(jié) 主成分方法應(yīng)用中應(yīng)注意 的問題,第五節(jié) 實例分析與計算機實現(xiàn),第一節(jié) 引言,多元統(tǒng)計分析處理的是多變量(多指標(biāo))問題。由于變量較多,增加了分析問題的復(fù)雜性。但在實際問題中,變量之間可能存在一定的相關(guān)性,因此,多變量中可能存在信息的重疊。人們自然希望通過克服相
2、關(guān)性、重疊性,用較少的變量來代替原來較多的變量,而這種代替可以反映原來多個變量的大部分信息,這實際上是一種“降維”的思想。,,主成分分析也稱主分量分析,是由Hotelling于1933年首先提出的。由于多個變量之間往往存在著一定程度的相關(guān)性。人們自然希望通過線性組合的方式,從這些指標(biāo)中盡可能快地提取信息。當(dāng)?shù)谝粋€線性組合不能提取更多的信息時,再考慮用第二個線性組合繼續(xù)這個快速提取的過程,……,直到所提取的信息與原指標(biāo)相差不多時為止。這就
3、是主成分分析的思想。一般說來,在主成分分析適用的場合,用較少的主成分就可以得到較多的信息量。以各個主成分為分量,就得到一個更低維的隨機向量;因此,通過主成分既可以降低數(shù)據(jù)“維數(shù)”又保留了原數(shù)據(jù)的大部分信息。,,我們知道,當(dāng)一個變量只取一個數(shù)據(jù)時,這個變量(數(shù)據(jù))提供的信息量是非常有限的,當(dāng)這個變量取一系列不同數(shù)據(jù)時,我們可以從中讀出最大值、最小值、平均數(shù)等信息。變量的變異性越大,說明它對各種場景的“遍歷性”越強,提供的信息就更加充分,信
4、息量就越大。主成分分析中的信息,就是指標(biāo)的變異性,用標(biāo)準差或方差表示它。主成分分析的數(shù)學(xué)模型是,設(shè)p個變量構(gòu)成的p維隨機向量為X = (X1,…,Xp)′。對X作正交變換,令Y = T′X,其中T為正交陣,要求Y的各分量是不相關(guān)的,并且Y的第一個分量的方差是最大的,第二個分量的方差次之,……,等等。為了保持信息不丟失,Y的各分量方差和與X的各分量方差和相等。,第二節(jié) 主成分的幾何意義及數(shù) 學(xué)推導(dǎo),一 主成分的幾何意義,
5、二 主成分的數(shù)學(xué)推導(dǎo),一、主成分的幾何意義,主成分分析數(shù)學(xué)模型中的正交變換,在幾何上就是作一個坐標(biāo)旋轉(zhuǎn)。因此,主成分分析在二維空間中有明顯的幾何意義。假設(shè)共有n個樣品,每個樣品都測量了兩個指標(biāo)(X1,X2),它們大致分布在一個橢圓內(nèi)如圖6.1所示。事實上,散點的分布總有可能沿著某一個方向略顯擴張,這個方向就把它看作橢圓的長軸方向。顯然,在坐標(biāo)系x1Ox2中,單獨看這n個點的分量X1和X2,它們沿著x1方向和x2方向都具有
6、較大的離散性,其離散的程度可以分別用的X1方差和X2的方差測定。如果僅考慮X1或X2中的任何一個分量,那么包含在另一分量中的信息將會損失,因此,直接舍棄某個分量不是“降維”的有效辦法。,,圖6.1 主成分的幾何意義,,,,易見,n個點在新坐標(biāo)系下的坐標(biāo)Y1和Y2幾乎不相關(guān)。稱它們?yōu)樵甲兞縓1和X2的綜合變量,n個點y1在軸上的方差達到最大,即在此方向上包含了有關(guān)n個樣品的最大量信息。因此,欲將二維空間的點投影
7、到某個一維方向上,則選擇y1軸方向能使信息的損失最小。我們稱Y1為第一主成分,稱Y2為第二主成分。第一主成分的效果與橢圓的形狀有很大的關(guān)系,橢圓越是扁平,n個點在y1軸上的方差就相對越大,在y2軸上的方差就相對越小,用第一主成分代替所有樣品所造成的信息損失也就越小。,,考慮兩種極端的情形:一種是橢圓的長軸與短軸的長度相等,即橢圓變成圓,第一主成分只含有二維空間點的約一半信息,若僅用這一個綜合變量,則將損失約50%的
8、信息,這顯然是不可取的。造成它的原因是,原始變量X1和X2的相關(guān)程度幾乎為零,也就是說,它們所包含的信息幾乎不重迭,因此無法用一個一維的綜合變量來代替。另一種是橢圓扁平到了極限,變成y1軸上的一條線,第一主成分包含有二維空間點的全部信息,僅用這一個綜合變量代替原始數(shù)據(jù)不會有任何的信息損失,此時的主成分分析效果是非常理想的,其原因是,第二主成分不包含任何信息,舍棄它當(dāng)然沒有信息損失。,二、主成分的數(shù)學(xué)推導(dǎo),,,,,,,,,,,,,,第三
9、節(jié) 主成分的性質(zhì),一 主成分的一般性質(zhì),二 主成分的方差貢獻率,一、主成分的一般性質(zhì),,,,二、主成分的方差貢獻率,,,,第四節(jié) 主成分方法應(yīng)用中應(yīng)注 意的問題,一 實際應(yīng)用中主成分分析的出發(fā)點,二 如何利用主成分分析進行綜合評價,一、實際應(yīng)用中主成分分析的出發(fā)點,,,這里我們需要進一步強調(diào)的是,從相關(guān)陣求得的主成分與協(xié)差陣求得的主成分一般情況是不相同的。實際表明,這種差異有時很大。我們認為,如果各指標(biāo)之間
10、的數(shù)量級相差懸殊,特別是各指標(biāo)有不同的物理量綱的話,較為合理的做法是使用R代替∑。對于研究經(jīng)濟問題所涉及的變量單位大都不統(tǒng)一,采用R代替∑后,可以看作是用標(biāo)準化的數(shù)據(jù)做分析,這樣使得主成分有現(xiàn)實經(jīng)濟意義,不僅便于剖析實際問題,又可以避免突出數(shù)值大的變量。,,,二、如何利用主成分分析進行綜合 評價,人們在對某個單位或某個系統(tǒng)進行綜合評價時都會遇到如何選擇評價指標(biāo)體系和如何對這些指標(biāo)進行綜合的困難。一般情況下,選擇評價指標(biāo)
11、體系后通過對各指標(biāo)加權(quán)的辦法來進行綜合。但是,如何對指標(biāo)加權(quán)是一項具有挑戰(zhàn)性的工作。指標(biāo)加權(quán)的依據(jù)是指標(biāo)的重要性,指標(biāo)在評價中的重要性判斷難免帶有一定的主觀性,這影響了綜合評價的客觀性和準確性。由于主成分分析能從選定的指標(biāo)體系中歸納出大部分信息,根據(jù)主成分提供的信息進行綜合評價,不失為一個可行的選擇。這個方法是根據(jù)指標(biāo)間的相對重要性進行客觀加權(quán),可以避免綜合評價者的主觀影響,在實際應(yīng)用中越來越受到人們的重視。對主成分進行加權(quán)綜合。我們
12、利用主成分進行綜合評價時,主要是將原有的信息進行綜合,因此,要充分的利用原始變量提供的信息。將主成分的權(quán)數(shù)根據(jù)它們的方差貢獻率來確定,因為方差貢獻率反映了各個主成分的信息含量多少。,,,第五節(jié) 實例分析與計算機實現(xiàn),一 主成分分析實例,二 利用SPSS進行主成分分析,一、主成分分析實例,表6.1是某市工業(yè)部門13個行業(yè)的8項重要經(jīng)濟指標(biāo)的數(shù)據(jù),這8項經(jīng)濟指標(biāo)分別是:X1:年末固定資產(chǎn)凈值,單位:萬元;X2:職工人數(shù)據(jù),
13、單位:人;X3:工業(yè)總產(chǎn)值,單位:萬元;X4:全員勞動生產(chǎn)率,單位:元/人年;X5:百元固定資產(chǎn)原值實現(xiàn)產(chǎn)值,單位:元;X6:資金利稅率,單位:%;X7:標(biāo)準燃料消費量,單位:噸;X8:能源利用效果,單位:萬元/噸。,,表6.1 某市工業(yè)部門13個行業(yè)8項指標(biāo),,我們要考慮的是:如何從這些經(jīng)濟指標(biāo)出發(fā),對各工業(yè)部門進行綜合評價與排序?我們先計算這些指標(biāo)的主成分,然后通過主成分的大小進行排序。表6.2和表6.3
14、分別是特征根(累計貢獻率)和特征向量的信息。利用主成分得分進行綜合評價時,從特征向量我們可以寫出所有8個主成分的具體形式:,,表6.2 特征根和累計貢獻率,,表6.3 特征向量,,表6.4 各行業(yè)主成分得分及排序,,我們以特征根為權(quán),對8個主成分進行加權(quán)綜合,得出各工業(yè)部門的綜合得分,具體數(shù)據(jù)見表6.4。綜合得分的計算公式是:根據(jù)上式可計算出各工業(yè)部門的綜合得分,并可據(jù)此排序。從上表可以看出,機器行業(yè)在
15、該地區(qū)的綜合評價排在第一,原始數(shù)據(jù)也反映出機器行業(yè)存在明顯的規(guī)模優(yōu)勢,另外從前兩個主成分得分上看,該行業(yè)也排在第一位,同樣存在效益優(yōu)勢;而排在最后三位的分別是皮革行業(yè)、電力行業(yè)和煤炭行業(yè)。,,二、利用SPSS進行主成分分析,SPSS沒有提供主成分分析的專用功能,只有因子分析的功能。但是因子分析和主成分分析有著密切的聯(lián)系。因子分析的重要步驟——因子的提取最常用的方法就是“主成分法”。利用因子分析的結(jié)果,可以很容易地實現(xiàn)主成分分析。具體來講
16、,就是利用因子載荷陣和相關(guān)系數(shù)矩陣的特征根來計算特征向量。即:其中,zij為第j個特征向量的第i個元素;aij為因子載荷陣第i行第j列的元素;λj為第j個因子對應(yīng)的特征根。然后再利用計算出的特征向量來計算主成分。以下是我國2005年第1、2季度分地區(qū)城鎮(zhèn)居民家庭收支基本情況。通過這個例子,介紹如何利用SPSS軟件實現(xiàn)主成分分析。,,表6.5 分地區(qū)城鎮(zhèn)居民家庭收支基本情況,,表6.5 分地區(qū)城鎮(zhèn)居民家庭收支基本情況,
17、,(一)利用SPSS進行因子分析將原始數(shù)據(jù)輸入SPSS數(shù)據(jù)編輯窗口,將5個變量分別命名為X1~X5。在SPSS窗口中選擇Analyze→Data Reduction→Factor菜單項,調(diào)出因子分析主界面,并將變量X1~X5移入Variables框中,其他均保持系統(tǒng)默認選項,單擊OK按鈕,執(zhí)行因子分析過程(關(guān)于因子分子在SPSS中實現(xiàn)的詳細過程,參見第7章實例)。得到如表6.6所示的特征根和方差貢獻率表和表6.7所示的因子載荷陣。表
18、6.6中Total列為各因子對應(yīng)的特征根,本例中共提取兩個公因子;% of Variance列為各因子的方差貢獻率;Cumulative %列為各因子累積方差貢獻率,由表中可以看出,前兩個因子已經(jīng)可以解釋79.31%的方差,,圖6.2 因子分析主界面,,表6.6 特征根和方差貢獻率表,,(二)利用因子分析結(jié)果進行主成分分析1. 將表6.7中因子載荷陣中的數(shù)據(jù)輸入SPSS數(shù)據(jù)編輯窗口,分別命名為a1和a2。,表6.7 因子載荷陣
19、,,2. 為了計算第一個特征向量,點擊菜單項中的Transform→Compute,調(diào)出Compute variable對話框,在對話框中輸入等式: z1=a1 / SQRT(2.576) 點擊OK按鈕,即可在數(shù)據(jù)編輯窗口中得到以z1為變量名的第一特征向量。再次調(diào)出Compute variable對話框,在對話框中輸入等式: z2=a2 /
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- [學(xué)習(xí)]多元統(tǒng)計分析主成分分析
- 應(yīng)用多元統(tǒng)計分析習(xí)題解答_主成分分析
- 應(yīng)用多元統(tǒng)計分析習(xí)題解答主成分分析
- 應(yīng)用多元統(tǒng)計分析習(xí)題解答主成分分析
- 應(yīng)用多元統(tǒng)計分析實驗報告之主成分分析
- 應(yīng)用多元統(tǒng)計分析實驗報告之主成分分析
- 應(yīng)用多元統(tǒng)計分析因子分析
- [教育]應(yīng)用數(shù)理統(tǒng)計主成分分析
- [教育]應(yīng)用多元統(tǒng)計分析-第九章典型相關(guān)分析
- 第3章 主成分分析
- 多元統(tǒng)計分析論文
- 奇異值與主成分分析pca
- 多元統(tǒng)計分析論文
- 多元統(tǒng)計分析實例
- 奇異值與主成分分析pca
- 多元統(tǒng)計分析聚類分析講義
- 多元統(tǒng)計分析聚類分析講義
- 第2章 統(tǒng)計分析基礎(chǔ)
- 應(yīng)用多元統(tǒng)計分析課程設(shè)計
- 應(yīng)用多元統(tǒng)計分析試題及答案
評論
0/150
提交評論