最新廈門(mén)大學(xué)應(yīng)用多元統(tǒng)計(jì)分析_[2]...

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-10-09 格式：ppt 頁(yè)數(shù)：127 大?。?.16MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

最新廈門(mén)大學(xué)應(yīng)用多元統(tǒng)計(jì)分析_[2]..._第1頁(yè)

已閱讀1頁(yè)，還剩126頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第五章聚類分析,第一節(jié) 引言,第二節(jié) 相似性的量度,第三節(jié) 系統(tǒng)聚類分析法,第四節(jié) K均值聚類分析,第五節(jié) 有序樣品的聚類分析法,第六節(jié) 實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn),第一節(jié) 引言,“物以類聚，人以群分”。對(duì)事物進(jìn)行分類，是人們認(rèn)識(shí)事物的出發(fā)點(diǎn)，也是人們認(rèn)識(shí)世界的一種重要方法。因此，分類學(xué)已成為人們認(rèn)識(shí)世界的一門(mén)基礎(chǔ)科學(xué)。在生物、經(jīng)濟(jì)、社會(huì)、人口等領(lǐng)域的研究中，存在著大量量化分類研究。例如：在生物

2、學(xué)中，為了研究生物的演變，生物學(xué)家需要根據(jù)各種生物不同的特征對(duì)生物進(jìn)行分類。在經(jīng)濟(jì)研究中，為了研究不同地區(qū)城鎮(zhèn)居民生活中的收入和消費(fèi)情況，往往需要?jiǎng)澐植煌念愋腿パ芯?。在地質(zhì)學(xué)中，為了研究礦物勘探，需要根據(jù)各種礦石的化學(xué)和物理性質(zhì)和所含化學(xué)成分把它們歸于不同的礦石類。在人口學(xué)研究中，需要構(gòu)造人口生育分類模式、人口死亡分類狀況，以此來(lái)研究人口的生育和死亡規(guī)律。,,但歷史上這些分類方法多半是人們主要依靠經(jīng)驗(yàn)作定性分類，致使許多分類帶有主觀性

3、和任意性，不能很好地揭示客觀事物內(nèi)在的本質(zhì)差別與聯(lián)系；特別是對(duì)于多因素、多指標(biāo)的分類問(wèn)題，定性分類的準(zhǔn)確性不好把握。為了克服定性分類存在的不足，人們把數(shù)學(xué)方法引入分類中，形成了數(shù)值分類學(xué)。后來(lái)隨著多元統(tǒng)計(jì)分析的發(fā)展，從數(shù)值分類學(xué)中逐漸分離出了聚類分析方法。隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展，利用數(shù)學(xué)方法研究分類不僅非常必要而且完全可能，因此近年來(lái)，聚類分析的理論和應(yīng)用得到了迅速的發(fā)展。聚類分析就是分析如何對(duì)樣品（或變量）進(jìn)行量化分類的問(wèn)題。通常

4、聚類分析分為Q型聚類和R型聚類。Q型聚類是對(duì)樣品進(jìn)行分類處理，R型聚類是對(duì)變量進(jìn)行分類處理。,第二節(jié) 相似性的量度,一樣品相似性的度量,二變量相似性的度量,一、樣品相似性的度量,在聚類之前，要首先分析樣品間的相似性。Q型聚類分析，常用距離來(lái)測(cè)度樣品之間的相似程度。每個(gè)樣品有p個(gè)指標(biāo)（變量）從不同方面描述其性質(zhì)，形成一個(gè)p維的向量。如果把n個(gè)樣品看成p維空間中的n個(gè)點(diǎn)，則兩個(gè)樣品間相似程度就可用p維空間中的兩點(diǎn)距離公式來(lái)度量

5、。兩點(diǎn)距離公式可以從不同角度進(jìn)行定義，令dij 表示樣品Xi與Xj的距離，存在以下的距離公式：1．明考夫斯基距離 (5.1)明考夫斯基距離簡(jiǎn)稱明氏距離，按的取值不同又可分成：,,,歐氏距離是常用的距離，大家都比較熟悉，但是前面已經(jīng)提到，在解決多元數(shù)據(jù)的分析問(wèn)題時(shí)，歐氏

6、距離就顯示出了它的不足之處。一是它沒(méi)有考慮到總體的變異對(duì)“距離”遠(yuǎn)近的影響，顯然一個(gè)變異程度大的總體可能與更多樣品近些，既使它們的歐氏距離不一定最近；另外，歐氏距離受變量的量綱影響，這對(duì)多元數(shù)據(jù)的處理是不利的。為了克服這方面的不足，可用“馬氏距離”的概念。,,2．馬氏距離設(shè)Xi與Xj是來(lái)自均值向量為? ，協(xié)方差為∑ =（＞0）的總體G中的p維樣品，則兩個(gè)樣品間的馬氏距離為

7、 (5.5)馬氏距離又稱為廣義歐氏距離。顯然，馬氏距離與上述各種距離的主要不同就是它考慮了觀測(cè)變量之間的相關(guān)性。如果各變量之間相互獨(dú)立，即觀測(cè)變量的協(xié)方差矩陣是對(duì)角矩陣，則馬氏距離就退化為用各個(gè)觀測(cè)指標(biāo)的標(biāo)準(zhǔn)差的倒數(shù)作為權(quán)數(shù)的加權(quán)歐氏距離。馬氏距離還考慮了觀測(cè)變量之間的變異性，不再受各指標(biāo)量綱的影響。將原始數(shù)據(jù)作線性變換后，馬氏

8、距離不變。,,3．蘭氏距離 (5.6) 它僅適用于一切Xij>0的情況，這個(gè)距離也可以克服各個(gè)指標(biāo)之間量綱的影響。這是一個(gè)自身標(biāo)準(zhǔn)化的量，由于它對(duì)大的奇異值不敏感，它特別適合于高度偏倚的數(shù)據(jù)。雖然這個(gè)距離有助于克服明氏距離的第一個(gè)缺點(diǎn)，但它也沒(méi)有考慮指標(biāo)之間的相關(guān)性。,,4．距離選擇的

9、原則一般說(shuō)來(lái)，同一批數(shù)據(jù)采用不同的距離公式，會(huì)得到不同的分類結(jié)果。產(chǎn)生不同結(jié)果的原因，主要是由于不同的距離公式的側(cè)重點(diǎn)和實(shí)際意義都有不同。因此我們?cè)谶M(jìn)行聚類分析時(shí)，應(yīng)注意距離公式的選擇。通常選擇距離公式應(yīng)注意遵循以下的基本原則：（1）要考慮所選擇的距離公式在實(shí)際應(yīng)用中有明確的意義。如歐氏距離就有非常明確的空間距離概念。馬氏距離有消除量綱影響的作用。（2）要綜合考慮對(duì)樣本觀測(cè)數(shù)據(jù)的預(yù)處理和將要采用的聚類分析方法。如在進(jìn)行聚類分析之

10、前已經(jīng)對(duì)變量作了標(biāo)準(zhǔn)化處理，則通常就可采用歐氏距離。（3）要考慮研究對(duì)象的特點(diǎn)和計(jì)算量的大小。樣品間距離公式的選擇是一個(gè)比較復(fù)雜且?guī)в幸欢ㄖ饔^性的問(wèn)題，我們應(yīng)根據(jù)研究對(duì)象的特點(diǎn)不同做出具體分折。實(shí)際中，聚類分析前不妨試探性地多選擇幾個(gè)距離公式分別進(jìn)行聚類，然后對(duì)聚類分析的結(jié)果進(jìn)行對(duì)比分析，以確定最合適的距離測(cè)度方法。,二、變量相似性的度量,多元數(shù)據(jù)中的變量表現(xiàn)為向量形式，在幾何上可用多維空間中的一個(gè)有向線段表示。在對(duì)多元數(shù)據(jù)進(jìn)行分析時(shí)

11、，相對(duì)于數(shù)據(jù)的大小，我們更多地對(duì)變量的變化趨勢(shì)或方向感興趣。因此，變量間的相似性，我們可以從它們的方向趨同性或“相關(guān)性”進(jìn)行考察，從而得到“夾角余弦法”和“相關(guān)系數(shù)”兩種度量方法。1、夾角余弦兩變量Xi與Xj看作p維空間的兩個(gè)向量，這兩個(gè)向量間的夾角余弦可用下式進(jìn)行計(jì)算

12、 (5.7)顯然，∣cos ? ij∣ ? 1。,,2．相關(guān)系數(shù)相關(guān)系數(shù)經(jīng)常用來(lái)度量變量間的相似性。變量Xi與Xj的相關(guān)系數(shù)定義為 (5.8)顯然也有，∣rij∣ ? 1。,,無(wú)論是夾角余弦還是相關(guān)系數(shù)，

13、它們的絕對(duì)值都小于1，作為變量近似性的度量工具，我們把它們統(tǒng)記為cij。當(dāng)∣cij∣ = 1時(shí)，說(shuō)明變量Xi與Xj完全相似；當(dāng)∣cij∣近似于1時(shí)，說(shuō)明變量Xi與Xj非常密切；當(dāng)∣cij∣ = 0時(shí)，說(shuō)明變量Xi與Xj完全不一樣；當(dāng)∣cij∣近似于0時(shí)，說(shuō)明變量Xi與Xj差別很大。據(jù)此，我們把比較相似的變量聚為一類，把不太相似的變量歸到不同的類內(nèi)。在實(shí)際聚類過(guò)程中，為了計(jì)算方便，我們把變量間相似性的度量公式作一個(gè)變換

14、為 dij = 1 ? ∣cij∣ (5.9)或者 dij2 = 1 ? cij2 (5.10) 用表示變量間的距離遠(yuǎn)近，小則與先聚成一類，這比較符合人

15、們的一般思維習(xí)慣。,第三節(jié) 系統(tǒng)聚類分析法,一系統(tǒng)聚類的基本思想,二類間距離與系統(tǒng)聚類法,三類間距離的統(tǒng)一性,一、系統(tǒng)聚類的基本思想,系統(tǒng)聚類的基本思想是：距離相近的樣品（或變量）先聚成類，距離相遠(yuǎn)的后聚成類，過(guò)程一直進(jìn)行下去，每個(gè)樣品（或變量）總能聚到合適的類中。系統(tǒng)聚類過(guò)程是：假設(shè)總共有n個(gè)樣品（或變量），第一步將每個(gè)樣品（或變量）獨(dú)自聚成一類，共有n類；第二步根據(jù)所確定的樣品（或變量）“距離”公式，把距離較近的

16、兩個(gè)樣品（或變量）聚合為一類，其它的樣品（或變量）仍各自聚為一類，共聚成n ?1類；第三步將“距離”最近的兩個(gè)類進(jìn)一步聚成一類，共聚成n ?2類；……，以上步驟一直進(jìn)行下去，最后將所有的樣品（或變量）全聚成一類。為了直觀地反映以上的系統(tǒng)聚類過(guò)程，可以把整個(gè)分類系統(tǒng)畫(huà)成一張譜系圖。所以有時(shí)系統(tǒng)聚類也稱為譜系分析。除系統(tǒng)聚類法外，還有有序聚類法、動(dòng)態(tài)聚類法、圖論聚類法、模糊聚類法等，限于篇幅，我們只介紹系統(tǒng)聚類方法。,二、類間距離與系統(tǒng)聚類

17、法,在進(jìn)行系統(tǒng)聚類之前，我們首先要定義類與類之間的距離，由類間距離定義的不同產(chǎn)生了不同的系統(tǒng)聚類法。常用的類間距離定義有8種之多，與之相應(yīng)的系統(tǒng)聚類法也有8種，分別為最短距離法、最長(zhǎng)距離法、中間距離法、重心法、類平均法、可變類平均法、可變法和離差平方和法。它們的歸類步驟基本上是一致的，主要差異是類間距離的計(jì)算方法不同。以下用dij表示樣品Xi與Xj之間距離，用Dij表示類Gi與Gj之間的距離。,,類間距離最短距離法,,,,,,

18、,,S1,S3,S2,S4,S5,最短距離(single linkage),類與之間的距離為兩類最近樣品的距離,,1. 最短距離法（single linkage）定義類與之間的距離為兩類最近樣品的距離，即為 (5.11)設(shè)類與合并成一個(gè)新類記為，則任一類與的距離為

19、 (5.12),系統(tǒng)聚類(Hierarchical clustering),最短距離法(single linkage)最

20、長(zhǎng)距離法(complete linkage)中間距離法(median method)可變距離法(flexible median)重心法(centroid)類平均法(average)可變類平均法(flexible average)Ward最小方差法(Ward’s minimum variance),,最短距離法進(jìn)行聚類分析的步驟如下：（1）定義樣品之間距離，計(jì)算樣品的兩兩距離，得一距離陣記為D（0），

21、開(kāi)始每個(gè)樣品自成一類，顯然這時(shí)Dij = dij。（2）找出距離最小元素，設(shè)為Dpq，則將Gp和Gq合并成一個(gè) 新類，記為Gr，即Gr = ｛Gp，Gq｝。（3）按（5.12）計(jì)算新類與其它類的距離。（4）重復(fù)（2）、（3）兩步，直到所有元素。并成一類為止。如果某一步距離最小的元素不止一個(gè)，則對(duì)應(yīng)這些最小元素的類可以同時(shí)合并。,,【例5.1】設(shè)有六個(gè)樣品，每個(gè)只測(cè)

22、量一個(gè)指標(biāo)，分別是1，2，5，7，9，10，試用最短距離法將它們分類。（1）樣品采用絕對(duì)值距離，計(jì)算樣品間的距離陣D（0），見(jiàn)表5.1,表5.1,,（2）D（0）中最小的元素是D12＝D56＝1，于是將G1和G2合并成G7，G5和G6合并成G8，并利用（5.12）式計(jì)算新類與其它類的距離D（1），見(jiàn)表5.2,表5.2,,（3）在D（1）中最小值是D34＝D48＝2，由于G4與G3合并，又與G8合并，因此G3、G4、G

23、8合并成一個(gè)新類G9，其與其它類的距離D（2），見(jiàn)表5.3,表5.3,,（4）最后將G7和G9合并成G10，這時(shí)所有的六個(gè)樣品聚為一類，其過(guò)程終止。上述聚類的可視化過(guò)程見(jiàn)圖5.1所示，橫坐標(biāo)的刻度表示并類的距離。這里我們應(yīng)該注意，聚類的個(gè)數(shù)要以實(shí)際情況所定，其詳細(xì)內(nèi)容將在后面討論。,圖5.1 最短距離聚類法的過(guò)程,,最長(zhǎng)距離(complete linkage),類間距離,S1,S3,S4,S5,最長(zhǎng)距離法,,,再找距離最小兩

24、類并類，直至所有的樣品全歸為一類為止?？梢钥闯鲎铋L(zhǎng)距離法與最短距離法只有兩點(diǎn)不同：一是類與類之間的距離定義不同；另一是計(jì)算新類與其它類的距離所用的公式不同。,,3. 中間距離法最短、最長(zhǎng)距離定義表示都是極端情況，我們定義類間距離可以既不采用兩類之間最近的距離也不采用兩類之間最遠(yuǎn)的距離，而是采用介于兩者之間的距離，稱為中間距離法。中間距離將類Gp與Gq類合并為類Gr，則任意的類Gk和Gr的距離公式為

25、 (?1／4 ? ? ? 0) (5.15)設(shè)Dkq＞Dkp，如果采用最短距離法，則Dkr = Dkp，如果采用最長(zhǎng)距離法，則Dkr = Dkq。如圖5.2所示，(5.15)式就是取它們（最長(zhǎng)距離與最短距離）的中間一點(diǎn)作為計(jì)算Dkr的根據(jù)。,,特別當(dāng)? = ? 1／4，它表示取中間點(diǎn)算距離，公式為

26、 (5.16),,,圖5.2 中間距離法,類間距離,S1,S3,S2,S4,S5,重心間距離(centroid),,,,,,,,,【例5.2】針對(duì)例5.1的數(shù)據(jù)，試用重心法將它們聚類。（1）樣品采用歐氏距離，計(jì)算樣品間的平方距離陣D2（0），見(jiàn)表5.4所示。,表5.4,,（2）D2（0）中最小的元素是D

27、212＝D256＝1，于是將G1和G2合并成G7，G5和G6合并成G8，并利用（5.18）式計(jì)算新類與其它類的距離得到距離陣D2（1），見(jiàn)表5.5：其中，其它結(jié)果類似可以求得,,（3）在D2（1）中最小值是D234＝4，那么G3與G4合并一個(gè)新類G9，其與與其它類的距離D2（2），見(jiàn)表5.6：,表5.6,,（4）在中最小值是＝12.5，那么與合并一個(gè)新類，其與與其它類的距離，見(jiàn)表5.7：,表5.

28、7,,（5）最后將G7和G10合并成G11，這時(shí)所有的六個(gè)樣品聚為一類，其過(guò)程終止。上述重心法聚類的可視化過(guò)程見(jiàn)圖5.3所示，橫坐標(biāo)的刻度表示并類的距離。,圖5.3 重心聚類法的過(guò)程,類間距離,,,,,,,,S1,S3,S2,S4,S5,平均距離(average),,,,6. 可變類平均法由于類平均法中沒(méi)有反映出Gp和Gq之間的距離Dpq的影響，因此將類平均法進(jìn)一步推廣，如果將Gp和Gq合并為新類Gr，類Gk與新并類Gr的距

29、離公式為：（5.22）其中?是可變的且? <1，稱這種系統(tǒng)聚類法為可變類平均法。,,,8. 離差平方和法該方法是Ward提出來(lái)的，所以又稱為Ward法。該方法的基本思想來(lái)自于方差分析，如果分類正確，同類樣品的離差平方和應(yīng)當(dāng)較小，類與類的離差平方和較大。具體做法是先將

30、n個(gè)樣品各自成一類，然后每次縮小一類，每縮小一類，離差平方和就要增大，選擇使方差增加最小的兩類合并，直到所有的樣品歸為一類為止。設(shè)將n個(gè)樣品分成k類G1，G2，…，Gk，用Xit表示Gt中的第I個(gè)樣品，nt表示Gt中樣品的個(gè)數(shù)，是Gt的重心，則Gt的樣品離差平方和為,,,,,這種系統(tǒng)聚類法稱為離差平方和法或Ward方法。下面論證離差平方和法的距離遞推（5.26）式。,,由于,,,,,三、類間距離的統(tǒng)一性,上述八種系統(tǒng)聚類法的

31、步驟完全一樣，只是距離的遞推公式不同。蘭斯（Lance）和威廉姆斯（Williams）于1967年給出了一個(gè)統(tǒng)一的公式。 (5.28)其中ap、aq、 ? 、 ?是參數(shù)，不同的系統(tǒng)聚類法，它們?nèi)〔煌臄?shù)，詳見(jiàn)表5.8。這里應(yīng)該注意，不同的聚類

32、方法結(jié)果不一定完全相同，一般只是大致相似。如果有很大的差異，則應(yīng)該仔細(xì)考查，找到問(wèn)題所在；另外，可將聚類結(jié)果與實(shí)際問(wèn)題對(duì)照，看哪一個(gè)結(jié)果更符合經(jīng)驗(yàn)。,,表5.8 系統(tǒng)聚類法參數(shù)表,第四節(jié) K均值聚類分析,系統(tǒng)聚類法需要計(jì)算出不同樣品或變量的距離，還要在聚類的每一步都要計(jì)算“類間距離”，相應(yīng)的計(jì)算量自然比較大；特別是當(dāng)樣本的容量很大時(shí)，需要占據(jù)非常大的計(jì)算機(jī)內(nèi)存空間，這給應(yīng)用帶來(lái)一定的困難。而K—均值法是一種快速聚類法，采用該方法

33、得到的結(jié)果比較簡(jiǎn)單易懂，對(duì)計(jì)算機(jī)的性能要求不高，因此應(yīng)用也比較廣泛。K均值法是麥奎因（MacQueen，1967）提出的，這種算法的基本思想是將每一個(gè)樣品分配給最近中心（均值）的類中，具體的算法至少包括以下三個(gè)步驟：1．將所有的樣品分成K個(gè)初始類；2．通過(guò)歐氏距離將某個(gè)樣品劃入離中心最近的類中，并對(duì)獲得樣品與失去樣品的類，重新計(jì)算中心坐標(biāo)；3．重復(fù)步驟2，直到所有的樣品都不能再分配時(shí)為止。,K-均值聚類,,K均值法和系統(tǒng)聚

34、類法一樣，都是以距離的遠(yuǎn)近親疏為標(biāo)準(zhǔn)進(jìn)行聚類的，但是兩者的不同之處也是明顯的：系統(tǒng)聚類對(duì)不同的類數(shù)產(chǎn)生一系列的聚類結(jié)果，而K—均值法只能產(chǎn)生指定類數(shù)的聚類結(jié)果。具體類數(shù)的確定，離不開(kāi)實(shí)踐經(jīng)驗(yàn)的積累；有時(shí)也可以借助系統(tǒng)聚類法以一部分樣品為對(duì)象進(jìn)行聚類，其結(jié)果作為K—均值法確定類數(shù)的參考。下面通過(guò)一個(gè)具體問(wèn)題說(shuō)明K均值法的計(jì)算過(guò)程。,,【例5.3】假定我們對(duì)A、B、C、D四個(gè)樣品分別測(cè)量?jī)蓚€(gè)變量和得到結(jié)果見(jiàn)表5.9。試

35、將以上的樣品聚成兩類。,表5.9 樣品測(cè)量結(jié)果,,第一步：按要求取K=2，為了實(shí)施均值法聚類，我們將這些樣品隨意分成兩類，比如（A、B）和（C、D），然后計(jì)算這兩個(gè)聚類的中心坐標(biāo)，見(jiàn)表5.10所示。表5.10中的中心坐標(biāo)是通過(guò)原始數(shù)據(jù)計(jì)算得來(lái)的，比如（A、 B）類的，等等。,表5.10 中心坐標(biāo),,第二步：計(jì)算某個(gè)樣品

36、到各類中心的歐氏平方距離，然后將該樣品分配給最近的一類。對(duì)于樣品有變動(dòng)的類，重新計(jì)算它們的中心坐標(biāo)，為下一步聚類做準(zhǔn)備。先計(jì)算A到兩個(gè)類的平方距離：由于A到（A、B）的距離小于到（C、D）的距離，因此A不用重新分配。計(jì)算B到兩類的平方距離：,,由于B到（A、B）的距離大于到（C、D）的距離，因此B要分配給（C、D）類，得到新的聚類是（A）和（B、C、D）。更新中心坐標(biāo)如表5.11所示。,表5.11 更新后的中心

37、坐標(biāo),,第三步：再次檢查每個(gè)樣品，以決定是否需要重新分類。計(jì)算各樣品到各中心的距離平方，得結(jié)果見(jiàn)表5.12。到現(xiàn)在為止，每個(gè)樣品都已經(jīng)分配給距離中心最近的類，因此聚類過(guò)程到此結(jié)束。最終得到K=2的聚類結(jié)果是A獨(dú)自成一類，B、C、D聚成一類。,表5.12 樣品聚類結(jié)果,第五節(jié) 有序樣品的聚類分析法,一有序樣品可能的分類數(shù)目,二費(fèi)希爾最優(yōu)求解法,三一個(gè)典型例子,,以上的系統(tǒng)聚類和K—均值聚

38、類中，樣品的地位是彼此獨(dú)立的，沒(méi)有考慮樣品的次序。但在實(shí)際應(yīng)用中，有時(shí)樣品的次序是不能變動(dòng)的，這就產(chǎn)生了有序樣品的聚類分析問(wèn)題。例如對(duì)動(dòng)植物按生長(zhǎng)的年齡段進(jìn)行分類，年齡的順序是不能改變的，否則就沒(méi)有實(shí)際意義了；又例如在地質(zhì)勘探中，需要通過(guò)巖心了解地層結(jié)構(gòu)，此時(shí)按深度順序取樣，樣品的次序也不能打亂。如果用X（1）， X（2）， …，X（n）表示n個(gè)有序的樣品，則每一類必須是這樣的形式，即X（i）， X（i+1)，…，X（j），其

39、中1 ? r ? n，且j ? n，簡(jiǎn)記為Gi = ｛i，i+1，…，j｝。在同一類中的樣品是次序相鄰的。這類問(wèn)題稱為有序樣品的聚類分析。,一、有序樣品可能的分類數(shù)目,n個(gè)有序樣品分成k類，則一切可能的分法有種。實(shí)際上，n個(gè)有序樣品共有（n ?1）個(gè)間隔，分成k類相當(dāng)于在這（n ?1）個(gè)間隔中插入k ?1根“棍子”。由于不考慮棍子的插入順序，是一個(gè)組合問(wèn)題，共有種插法。

40、圖5.4 有序樣品的分類法這就是n個(gè)有序樣品分成k類的一切可能分法。因此，對(duì)于有限的n和k，有序樣品的所有可能分類結(jié)果是有限的，可以在某種損失函數(shù)意義下，求得最優(yōu)解。所以有序樣品聚類分析又稱為最優(yōu)分割，該算法是費(fèi)希爾（Fisher）最先提出來(lái)的，故也稱之為費(fèi)希爾最優(yōu)求解法。,,二、費(fèi)希爾最優(yōu)求解法,,,,這里需要注意，若要尋找將n個(gè)樣品分為k類的最優(yōu)分割，則對(duì)于任意的j（k ? j ? n）,先將前面j ?1

41、個(gè)樣品最優(yōu)分割為k ?1類，得到p（j ? 1，k ? 1），否則從j到n這最后一類就不可能構(gòu)成k類的最優(yōu)分割，參見(jiàn)圖5.6。再考慮使L[b（n，k）]最小的j＊，得到p（n，k）。因此我們得到費(fèi)希爾最優(yōu)求解法的遞推公式為（5.

42、23）,圖5.6 最優(yōu)分割,,,,三、一個(gè)典型例子,【例5.4】為了了解兒童的生長(zhǎng)發(fā)育規(guī)律，今隨機(jī)抽樣統(tǒng)計(jì)了男孩從出生到11歲每年平均增長(zhǎng)的重量數(shù)據(jù)表5.13，試問(wèn)男孩發(fā)育可分為幾個(gè)階段？在分析這是一個(gè)有序樣品的聚類問(wèn)題時(shí)，我們通過(guò)圖形可以看到男孩增重隨年齡順序變化的規(guī)律，從圖5.6中發(fā)現(xiàn)男孩發(fā)育確實(shí)可以分為幾個(gè)階段。,表5.13 1－11歲兒童每年平均增長(zhǎng)的重量,,圖5.7 兒童成長(zhǎng)階段分析,,下面通過(guò)有序樣

43、品的聚類分析確定男孩發(fā)育分成幾個(gè)階段較合適。步驟如下：,,表5.14 直徑 D（i，j）,,,,,（3）分類個(gè)數(shù)的確定。如果能從生理角度事先確定k當(dāng)然最好；有時(shí)不能事先確定k時(shí)，可以從L[p（l，k）]隨k的變化趨勢(shì)圖中找到拐點(diǎn)處，作為確定k的根據(jù)。當(dāng)曲線拐點(diǎn)很平緩時(shí)，可選擇的k很多，這時(shí)需要用其它的辦法來(lái)確定，比如均方比和特征根法，限于篇幅此略，有興趣的讀者可以查看其它資料。本例從表5.15中的最后一行可以看出k =3，4處

44、有拐點(diǎn)，即分成3類或4類都是較合適的，從圖5.8中可以更明顯看出這一點(diǎn)。,,,第六節(jié) 實(shí)例分析與計(jì)算機(jī)實(shí)現(xiàn),一在SPSS中利用系統(tǒng)聚類法進(jìn)行聚類分析,二在SPSS中利用K均值法進(jìn)行聚類分析,一、在SPSS中利用系統(tǒng)聚類法進(jìn)行聚類分析,設(shè)有20個(gè)土壤樣品分別對(duì)5個(gè)變量的觀測(cè)數(shù)據(jù)如表5.16所示，試?yán)孟到y(tǒng)聚類法對(duì)其進(jìn)行樣品聚類分析。,表5.16 土壤樣本的觀測(cè)數(shù)據(jù),,,（一）操作步驟1. 在SPSS

45、窗口中選擇Analyze→Classify→Hierachical Cluster，調(diào)出系統(tǒng)聚類分析主界面，并將變量X1～X5移入Variables框中。在Cluster欄中選擇Cases單選按鈕，即對(duì)樣品進(jìn)行聚類（若選擇Variables，則對(duì)變量進(jìn)行聚類）。在Display欄中選擇Statistics和Plots復(fù)選框，這樣在結(jié)果輸出窗口中可以同時(shí)得到聚類結(jié)果統(tǒng)計(jì)量和統(tǒng)計(jì)圖。,,圖5.9 系統(tǒng)聚類法主界面,,,2. 點(diǎn)擊Stati

46、stics按鈕，設(shè)置在結(jié)果輸出窗口中給出的聚類分析統(tǒng)計(jì)量。這里我們選擇系統(tǒng)默認(rèn)值，點(diǎn)擊Continue按鈕，返回主界面。3. 點(diǎn)擊Plots按鈕，設(shè)置結(jié)果輸出窗口中給出的聚類分析統(tǒng)計(jì)圖。選中Dendrogram復(fù)選框和Icicle欄中的None單選按鈕，即只給出聚類樹(shù)形圖，而不給出冰柱圖。單擊Continue按鈕，返回主界面。,圖5.10 Plots子對(duì)話框,Statistics （統(tǒng)計(jì)量）,,,plot （繪制）,,,Statis

47、tics (統(tǒng)計(jì)量),,樣品或變量的分類情況,,,,聚類進(jìn)度表,,,相似矩陣,,,plot （繪圖）,,4. 點(diǎn)擊Method按鈕，設(shè)置系統(tǒng)聚類的方法選項(xiàng)。Cluster Method下拉列表用于指定聚類的方法，包括組間連接法、組內(nèi)連接法、最近距離法、最遠(yuǎn)距離法等；Measure欄用于選擇對(duì)距離和相似性的測(cè)度方法；剩下的Transform Values和Transform Measures欄用于選擇對(duì)原始數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的方法。這里我們?nèi)?/p>

48、然均沿用系統(tǒng)默認(rèn)選項(xiàng)。單擊Continue按鈕，返回主界面。,,,圖5.11 Method子對(duì)話框,類間平均,,,類內(nèi)平均,歐式距離,,,,,,,,聚類分析中應(yīng)用最廣泛的距離，但未考慮指標(biāo)間的相關(guān)性，也未考慮指標(biāo)方差的不同,,,多用于指標(biāo)聚類,,,,q需要用戶自己指定,,q和r需要用戶自己指定,,,,,,,,,,,5. 點(diǎn)擊Save按鈕，指定保存在數(shù)據(jù)文件中的用于表明聚類結(jié)果的新變量。None表示不保存任何新變量；Single so

49、lution表示生成一個(gè)分類變量，在其后的矩形框中輸入要分成的類數(shù)；Range of solutions表示生成多個(gè)分類變量。這里我們選擇Range of solutions，并在后面的兩個(gè)矩形框中分別輸入2和4，即生成三個(gè)新的分類變量，分別表明將樣品分為2類、3類和4類時(shí)的聚類結(jié)果。點(diǎn)擊Continue，返回主界面。,,圖5.12 Save子對(duì)話框,6. 點(diǎn)擊OK按鈕，運(yùn)行系統(tǒng)聚類過(guò)程。,,,（二）主要運(yùn)行結(jié)果解釋1. 在結(jié)果輸出

50、窗口中我們可以看到聚類樹(shù)形圖（Dendrogram）。從樹(shù)形圖5.12可以清楚地看到，若將20個(gè)樣品分為兩類，則樣品2、6、19、7、和樣品1為一類，其余的為另一類；若將樣品分為三類，則樣品8、9、4從第二類中分離出來(lái)，自成一類；依此類推。,,,圖5.13 系統(tǒng)聚類法樹(shù)形圖,,2. 由于我們已經(jīng)在Save子對(duì)話框中設(shè)置了在數(shù)據(jù)文件中生成新的分類變量，所以，在數(shù)據(jù)編輯窗口中，我們可以看到生成的三個(gè)表示分類結(jié)果的新變量。變量名為clu4

51、_1、clu3_1和clu2-1的三個(gè)分類變量分別表明了把樣品分成4類、3類和2類的分類情況。,圖5.14 生成三個(gè)新的分類變量,,聚類第一步,,樣品2和9聚為1類，它們的樣品間距離為2.020,,本步聚類中，參與聚類的是樣本還是小類。0表示樣本，數(shù)字n(非0）表示由第n步聚類產(chǎn)生的小類參與本步聚類,,示本步聚類的結(jié)果將在聚類的第幾步中用到。,,,第一步X2與X6聚合,,{x2,x6 }與x19聚合,,x8與x9聚合，第三步,,二、在

52、SPSS中利用K均值法進(jìn)行聚類分析,我國(guó)各地區(qū)2003年三次產(chǎn)業(yè)產(chǎn)值如表5.17所示，試根據(jù)三次產(chǎn)業(yè)產(chǎn)值利用K均值法對(duì)我國(guó)31個(gè)省、自治區(qū)和直轄市進(jìn)行聚類分析。,,當(dāng)要聚成的類數(shù)確定時(shí)，使用K均值法可以很快將觀測(cè)量分到各類中去，而且該方法處理速度快，占用內(nèi)存少，尤其適用于大樣本的聚類分析。（一）操作步驟1. 在SPSS窗口中選擇Analyze→Classify→K-Means Cluster，調(diào)出K均值聚類分析主界面，并將變量—移入

53、Variables框中，將標(biāo)志變量Region移入Label Case by框中。在Method框中選擇Iterate classify，即使用K-means算法不斷計(jì)算新的類中心，并替換舊的類中心（若選擇Classify only，則根據(jù)初始類中心進(jìn)行聚類，在聚類過(guò)程中不改變類中心）。在Number of Cluster后面的矩形框中輸入想要把樣品聚成的類數(shù)，這里我們輸入3，即將31個(gè)地區(qū)分為3類。至于Centers按鈕，則用于設(shè)置迭

54、代的初始類中心。如果不手工設(shè)置，則系統(tǒng)會(huì)自動(dòng)設(shè)置初始類中心，這里我們不作設(shè)置。,,,選項(xiàng),讀寫(xiě)凝聚點(diǎn),人為固定分類數(shù),ANOVA表，初始凝聚點(diǎn)等,,2. 點(diǎn)擊Iterate按鈕，對(duì)迭代參數(shù)進(jìn)行設(shè)置。Maximum Iterations參數(shù)框用于設(shè)定K-means算法迭代的最大次數(shù)，Convergence Criterion參數(shù)框用于設(shè)定算法的收斂判據(jù)，其值應(yīng)該介于0和1之間。例如判據(jù)設(shè)置為0.02，則當(dāng)一次完整的迭代不能使任何一個(gè)類中

55、心距離的變動(dòng)與原始類中心距離的比小于2時(shí)，迭代停止。設(shè)置完這兩個(gè)參數(shù)之后，只要在迭代的過(guò)程中先滿足了其中的參數(shù)，則迭代過(guò)程就停止。這里我們選擇系統(tǒng)默認(rèn)的標(biāo)準(zhǔn)。單擊Continue，返回主界面。,圖5.16 Iterate子對(duì)話框,,3. 點(diǎn)擊Save按鈕，設(shè)置保存在數(shù)據(jù)文件中的表明聚類結(jié)果的新變量。其中Cluster membership選項(xiàng)用于建立一個(gè)代表聚類結(jié)果的變量，默認(rèn)變量名為qcl_1；Distance from clust

56、er center選項(xiàng)建立一個(gè)新變量，代表各觀測(cè)量與其所屬類中心的歐氏距離。我們將兩個(gè)復(fù)選框都選中，單擊Continue按鈕返回。,圖5.17 Save子對(duì)話框,,4. 點(diǎn)擊Options按鈕，指定要計(jì)算的統(tǒng)計(jì)量。選中Initial cluster centers和Cluster information for each case復(fù)選框。這樣，在輸出窗口中將給出聚類的初始類中心和每個(gè)觀測(cè)量的分類信息，包括分配到哪一類和該觀測(cè)量距所屬類

57、中心的距離。單擊Continue返回。5. 點(diǎn)擊OK按鈕，運(yùn)行K均值聚類分析程序。,圖5.18 Options子對(duì)話框,,（二）主要運(yùn)行結(jié)果解釋1. Initial Cluster Centers（給出初始類中心）2. Iteration History（給出每次迭代結(jié)束后類中心的變動(dòng)）從表5.18中可以看到本次聚類過(guò)程共經(jīng)歷了三次迭代。由于我們?cè)贗terate子對(duì)話框中使用系統(tǒng)默認(rèn)的選項(xiàng)（最大迭代次數(shù)

58、為10和收斂判據(jù)為0），所以在第三次迭代后，類中心的變化為0，從而迭代停止。,,3. Cluster Membership（給出各觀測(cè)量所屬的類及與所屬類中心的距離）表5.19中Cluster列給出了觀測(cè)量所屬的類別，Distance列給出了觀測(cè)量與所屬類中心的距離。（出于排版要求，此表經(jīng)過(guò)加工，因此與原始輸出表形態(tài)有一定差異）。,表5.18 迭代過(guò)程中類中心的變化量,,表5.19 各觀測(cè)量所屬類成員表,,4. Final Cl

59、uster Centers（給出聚類結(jié)果形成的類中心的各變量值）,表5.20 最終的類中心表,,結(jié)合表5.19和表5.20，我們可以看出31個(gè)地區(qū)被分成3類。第一類包括：江蘇、浙江、山東和廣東4個(gè)省。這一類的類中心三個(gè)產(chǎn)業(yè)的產(chǎn)值分別為1102.14億元、6423.01億元和4454.26億元，屬于三個(gè)產(chǎn)業(yè)都比較發(fā)達(dá)的地區(qū)。第二類包括：天津、山西、內(nèi)蒙古、吉林、江西、廣西、海南、重慶、貴州、云南、西藏、陜西、甘肅、青海、寧夏和新疆16個(gè)

60、地區(qū)。這一類的類中心三個(gè)產(chǎn)業(yè)的產(chǎn)值分別為307.61億元、795.41億元和673.63億元，屬于欠發(fā)達(dá)地區(qū)。剩下的11個(gè)地區(qū)為第三類。這一類的類中心三個(gè)產(chǎn)業(yè)的產(chǎn)值分別為713.28億元、2545.20億元和212.87億元，屬于中等發(fā)達(dá)地區(qū)。5. 由于我們已經(jīng)在Save子對(duì)話框中設(shè)置了在數(shù)據(jù)文件中生成新的分類變量，所以，在數(shù)據(jù)編輯窗口中，我們可以看到生成的兩個(gè)表示分類結(jié)果的新變量。變量qcl_1和變量qcl_2分別代表分類號(hào)和觀測(cè)

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新廈門(mén)大學(xué)應(yīng)用多元統(tǒng)計(jì)分析_[2]...

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

最新廈門(mén)大學(xué)應(yīng)用多元統(tǒng)計(jì)分析_[2]...

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載