數(shù)據(jù)分析課程設計---有關據(jù)居民消費水平分析_第1頁
已閱讀1頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、<p><b>  目錄</b></p><p><b>  1.設計目的1</b></p><p>  1.1 設計問題1</p><p>  1,2 問題分析1</p><p><b>  2.設計原理1</b></p><p>&

2、lt;b>  3 設計程序3</b></p><p>  3.1 設計步驟3</p><p>  3.1.1聚類中的步驟3</p><p>  3.1.2因子分析步驟4</p><p><b>  4 結果分析5</b></p><p>  4.1聚類中得到的結果5

3、</p><p>  4.2在因子分析中得到結果8</p><p><b>  5.設計總結13</b></p><p><b>  參考文獻14</b></p><p><b>  摘 要</b></p><p>  數(shù)據(jù)分析課程在自然科學、社會

4、科學、工農(nóng)業(yè)生產(chǎn)、金融、經(jīng)濟等各方面有著廣泛的應用。各行各業(yè)的各個領域無處不有數(shù)據(jù)的存在,而如何處理大量雜亂無章的數(shù)據(jù)從而從中得到其內在規(guī)律、發(fā)掘有用的信息以指導人們進行科學的推斷與決策,就需要進行數(shù)據(jù)分析。</p><p>  現(xiàn)實居民消費支出結構決定了一個地區(qū)的經(jīng)濟發(fā)展情況,生產(chǎn)力發(fā)展、居民收入、價格波動、消費政策取向、消費者的消費觀念、消費心理等許多因素的對及各地區(qū)有著很強的制約,在現(xiàn)實生活中,影響消費支出

5、結構的各種因素很難形成絕對合理、絕對均衡的配置,不僅任何一種因素的不合理,會影響居民消費支出比例合理配置,而且,反過來,居民消費支出結構的不合理性也會通過需求結構的錯誤信息傳導,影響消費政策的選擇及生產(chǎn)力的協(xié)調發(fā)展。因此,研究居民消費支出結構,自覺地按照消費結構的變化規(guī)律進行適當?shù)恼{整,促進國民經(jīng)濟的協(xié)調發(fā)展,就成為國民經(jīng)濟研究系統(tǒng)中不可缺少的一部分。本論文對各省市的消費支出運用均值聚類,因子分析對數(shù)據(jù)進行處理把各省市進行分類。<

6、/p><p>  關鍵詞:消費支出 因子分析 均值聚類</p><p>  中國城鎮(zhèn)居民消費結構的分析</p><p><b>  1 .設計目的</b></p><p>  為了更好的了解數(shù)據(jù)分析方法的知識,熟練掌握數(shù)據(jù)分析方法在實際問題上的應用,并將所學的知識結spss對數(shù)據(jù)的處理解決實際問題。本設計是利用spss的快

7、速聚類和主成分分析對問題建立數(shù)學模型,并用spss軟件進行解算。</p><p><b>  1.1 設計問題</b></p><p>  改革開放以來,中國經(jīng)濟高漲,,對居民消費支出影響最大的當屬交通通信,住房、醫(yī)療保健和教育文化的支出。其中被稱為“三高”的教育、醫(yī)療、住房支出占居民總消費支出的比重不斷擴大,導致居民用于其他方面的消費受到一定抑制。同時,隨著人們生活

8、水平的日漸提高以及各項交通通信技術的進步,城鎮(zhèn)居民的消費重點已從基本生活消費品轉向了以住、行為代表的新型消費領域,而交通通信費用的增長速度尤為突出!在科技的不斷進步下,隨著居民收入水平的提高及電子通訊、家用汽車價格的下調,移動電話及家用汽車己成為我國近幾年形成的新消費熱點之一。從趨勢上看,這方面的消費需求將會持續(xù)旺盛。近年來,很多學者在分別對教育、住房、醫(yī)療對消費的擠出方面做出了深入的研究。本文在中華人民共和國國家統(tǒng)計局的數(shù)據(jù)庫中找到2

9、010年的以下數(shù)據(jù)。并對其分析,其中,行表示各方面的支出,列表示各地區(qū)。數(shù)據(jù)見附錄1</p><p>  對各省市的消費情況進行分類。</p><p>  對消費支出類型進行主成分分析。</p><p><b>  1,2 問題分析</b></p><p>  通過查找,在中華人民共和國國家統(tǒng)計局的數(shù)據(jù)庫找到數(shù)據(jù),根據(jù)數(shù)

10、據(jù)聚類方法的意義,我們可以通過軟件對數(shù)據(jù)進行處理,進行分類。達到要求,根據(jù)各省市的消費支出水平對各省市進行分類,之后本文通過對數(shù)據(jù)進行因子分析,可以清楚地知道哪些因子起主要作用。</p><p><b>  2.設計原理</b></p><p><b>  聚類分析:</b></p><p>  K-均值聚類算法的工作原理

11、: K-means算法的工作原理:算法首先隨機從數(shù)據(jù)集中選取 K個點作為初始聚類中心,然后計算各個樣本到聚類中的距離,把樣本歸到離它最近的那個聚類中心所在的類。計算新形成的每一個聚類的數(shù)據(jù)對象的平均值來得到新的聚類中心,如果相鄰兩次的聚類中心沒有任何變化,說明樣本調整結束,聚類準則函數(shù) 已經(jīng)收斂。本算法的一個特點是在每次迭代中都要考察每個樣本的分類是否正確。若不正確,就要調整,在全部樣本調整完后,再修改聚類中心,進入下一次迭代。如果在一

12、次迭代算法中,所有的樣本被正確分類,則不會有調整,聚類中心也不會有任何變化,這標志著 已經(jīng)收斂,因此算法結束。 2.K-means聚類算法的一般步驟: </p><p> ?。?) 從 n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心; </p><p> ?。?) 根據(jù)每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離;并根據(jù)最小距離重新對相應對象進行劃分;</p&g

13、t;<p> ?。?) 重新計算每個(有變化)聚類的均值(中心對象); </p><p>  (4) 循環(huán)(2)到(3)直到每個聚類不再發(fā)生變化為止</p><p><b>  因子分析:</b></p><p>  因子分析法是從研究變量內部相關的依賴關系出發(fā),把一些具有錯綜復雜關系的變量歸結為少數(shù)幾個綜合因子的一種多變量統(tǒng)計分

14、析方法。它的基本思想是將觀測變量進行分類,將相關性較高,即聯(lián)系比較緊密的分在同一類中,而不同類變量之間的相關性則較低,那么每一類變量實際上就代表了一個基本結構,即公共因子。對于所研究的問題就是試圖用最少個數(shù)的不可測的所謂公共因子的線性函數(shù)與特殊因子之和來描述原來觀測的每一分量。   因子分析模型描述如下:  </p><p> ?、臱 = (x1,x2,…,xp)是可觀測隨機向量,均值向量E(X)=0,協(xié)方差陣C

15、ov(X)=∑,且協(xié)方差陣∑與相關矩陣R相等(只要將變量標準化即可實現(xiàn))。   </p><p>  ⑵F = (F1,F(xiàn)2,…,F(xiàn)m)(m<p)是不可測的向量,其均值向量E(F)=0,協(xié)方差矩陣Cov(F) =I,即向量的各分量是相互獨立的。   </p><p>  ⑶e = (e1,e2,…,ep)與F相互獨立,且E(e)=0, e的協(xié)方差陣∑是對角陣,即各分量e之間是相互獨立

16、的,則模型:   </p><p>  x1 = a11F1+ a12F2 +…+a1mFm + e1</p><p>  x2 = a21F1+a22F2 +…+a2mFm + e2</p><p><b>  ………</b></p><p>  xp = ap1F1+ ap2F2 +…+apmFm + ep</

17、p><p>  稱為因子分析模型,由于該模型是針對變量進行的,各因子又是正交的,所以也稱為R型正交因子模型。   其矩陣形式為:x =AF + e .   其中:   x=,A=,F(xiàn)=,e=   這里,   </p><p>  ⑴m £ p;   </p><p>  ⑵Cov(F,e)=0,即F和e是不相關的;   </p><p> ?、荄

18、(F) = Im ,即F1,F(xiàn)2,…,F(xiàn)m不相關且方差均為1;   D(e)=,即e1,e2,…,ep不相關,且方差不同。   我們把F稱為X的公共因子或潛因子,矩陣A稱為因子載荷矩陣,e 稱為X的特殊因子。   A = (aij),aij為因子載荷。數(shù)學上可以證明,因子載荷aij就是第i變量與第j因子的相關系數(shù),反映了第i變量在第j因子上的重要性。</p><p><b>  3 設計程序</b

19、></p><p><b>  3.1 設計步驟</b></p><p>  3.1.1聚類中的步驟</p><p> ?。?)打開spss軟件,打開數(shù)據(jù),選擇“分析”,“分類”,“K均值聚類”命令。</p><p>  (2)選擇進行聚類分析的變量。選擇“地區(qū)”進入“個案標記依據(jù)”的列表框,選擇其他變量進入“變量

20、”列表框;在編輯框“聚類數(shù)”中,輸入聚類分析的類別數(shù),本題中選3,如圖1</p><p><b>  圖1</b></p><p> ?。?)設置輸出及缺失值處理方法。按“選項”按鈕,彈出對話框,在“統(tǒng)計量”選項組中,選擇全部三個選擇項;選擇其他默認值。設置完畢。如圖2</p><p><b>  圖2</b></p

21、><p> ?。?)其他設置采用系統(tǒng)默認設置即可。</p><p> ?。?)設置完畢,單擊“確定”按鈕,等待輸出結果。如圖3</p><p><b>  圖3</b></p><p>  3.1.2因子分析步驟</p><p>  (1) 打開spss軟件,打開數(shù)據(jù),選擇“分析”,“降維”,“因子分

22、析”。</p><p>  (2) 將變量列表中選擇變量進入變量框中。</p><p>  (3) 在“描述”中,在統(tǒng)計量只選擇“原始分析結果”。在相關矩陣中選“系數(shù)”,“顯著性水平”“KMO和BARTLETT的球形度檢驗”,按繼續(xù)。如圖4</p><p><b>  圖4</b></p><p>  (4)在“抽取”中

23、,分析中選擇“相關性矩陣”,在輸出中選“未旋轉的因子解”,在因子的固定數(shù)量種子中 填寫3,按繼續(xù)。.如圖5</p><p><b>  圖5</b></p><p> ?。?)在方法中選擇“最大方差法”,輸出中都選,按繼續(xù)。</p><p> ?。?)按確定輸出結果。</p><p><b>  4 結果分析

24、</b></p><p>  4.1聚類中得到的結果</p><p> ?。?)根據(jù)我們通過spss軟件中均值聚類方法得到的結果,根據(jù)表1,我們根據(jù)消費支出來把所有的省市分為了三類,天津,遼寧,江蘇,福建,重慶為第一類。北京,上海,浙江,廣東為第二類,其余地區(qū)為第三類。</p><p><b>  表1</b></p>

25、<p>  (2)根據(jù)表2,我們可以看到,,第一類在各方面消費都比較適中,第二類在各方面都比較高,第三類在各方面消費偏低。說明了各省市在消費支出方面還是存在差異。</p><p><b>  表2</b></p><p> ?。?)結論:綜合以上的表和下面幾個表我們可以看出,在第一類中的省市為發(fā)展水平比較高的省市,在第二類中的各省市為首都直轄市等地區(qū)發(fā)展速

26、度很快,第三類省市大部分為發(fā)展中的省市.說明聚類的結果還是比較符合現(xiàn)實的情況的。</p><p><b>  表3</b></p><p><b>  表4</b></p><p><b>  表5</b></p><p>  4.2在因子分析中得到結果</p>

27、<p>  (1)附錄2是原有變量的相關系數(shù)矩陣及其檢驗。可以看到,大部分大的相關系數(shù)都比較高,各變量呈較強的線性關系,能夠從中提取公共因子,適合進行分析。</p><p> ?。?)根據(jù)表6可知,巴特利特球度檢驗統(tǒng)計量為241.900,相應的概率Sig為0.000,因此可認為相關系數(shù)矩陣與單位陣有顯著差異,同時,KM,O值為0.827,根據(jù)Kaiser給出的KMO度量標準可知原有變量適合進行分析。&l

28、t;/p><p><b>  表6</b></p><p>  (3)根據(jù)圖6可知,橫坐標為因子數(shù)目,縱坐標為特征值,可見,第一個因子的特征值很高,對解釋原有變量的貢獻很大,第四個以后的因子特征值都比較小,對解釋原有變量的貢獻很小,已經(jīng)成為可被忽略的“高山腳下的碎石”,因此提取三個因子是合適的。</p><p><b>  圖6</

29、b></p><p>  ( 4 ) 根據(jù)表9中,第一列是因子編號,以后三列一組,每組的含義依次是特征根值,方差貢獻率和累積方差貢獻率,第一組數(shù)據(jù)項(第二列到第四列)描述了因子初始解的情況。可以看到,第1個因子的特征值為5.640,解釋原有的8個變量總,累積方差貢獻率為70.494%,第二組數(shù)據(jù)項(第五至第七列)描述了因子解的情況,可以看到,由于指定提取三個因子,三個因子共解釋了原有變量總方差的90.176

30、%,總體上,三個因子反映了原有變量的大部分信息,因子分析效果較明顯。</p><p><b>  表7</b></p><p>  (5)根據(jù)表8可知,,是因子分析的和核心內容。根據(jù)該表可寫出本題的因子分析模型:</p><p>  食品=0.842F1-0.454F2-0.069F3</p><p>  衣著=0.63

31、0F1+0.676F2-0.298F3</p><p><b>  ……..</b></p><p>  醫(yī)療保健=0.672F1+0.626F2+0.295F3</p><p>  可以看出8個變量在第1個因子上的負荷都很高,意味著它們與第1個因子的相關度高,其余2個因子與8個變量的相關性相對較小。另外還可以看到,這三個因子的實際含義比較模糊

32、。</p><p><b>  表8</b></p><p> ?。?)根據(jù)表9可知,用主成分分析進行方差極大法旋轉后,家庭設備、其他商品、教育文化、交通和通信、食品在第1個因子上有較高的負荷,第一個因子主要解釋以上幾個變量,衣著在第2個因子上有較高的負荷,第2個因子主要解釋以上一個變量,第3個主要解釋居住、醫(yī)療保健這個原有變量。</p><p&g

33、t;<b>  表9 </b></p><p> ?。?)根據(jù)表10可知,表是根據(jù)回歸算法計算出來的因子得分函數(shù)的系數(shù),根據(jù)表可以得到下面的因子得分函數(shù):</p><p>  F1=0.364食品-0.077衣著-0.052居住+0.237家庭設備+0.213其他商品+0.222教育文化+0.239交通和通信-0.327醫(yī)療保健</p><p>

34、;  F2=-0.193食品+0.801衣著-0.359居住+0.155家庭設備+0.225其他商品+0.071教育文化-0.181交通和通信+0.220醫(yī)療保健</p><p>  F3=-0.186食品-0.461衣著+0.954居住-0.289家庭設備-0.302其他商品-0.122教育文化+0.109交通和通信+0.804醫(yī)療保健</p><p><b>  表10<

35、;/b></p><p>  將根據(jù)這三個因子得分函數(shù)自用計算到樣本中三個因子得分,并將因子得分作為新變量,保存到數(shù)據(jù)編輯窗口中,如如圖7所示;</p><p><b>  圖7</b></p><p> ?。?)根據(jù)表11可知,該表顯示了3個因子的協(xié)方差矩陣??芍?,3個因子沒有線性相關性,實現(xiàn)了因子分析的設計目標。</p>

36、<p><b>  表11</b></p><p>  (9)根據(jù)上述分析的結果,對中國各省市居民消費水平進行評估,首先,根據(jù)三個因子方差貢獻率確定權重,由于三個因子在較大程度上反映了原有變量的大部分信息,其累計貢獻率達90.176%,因此可用三個因子的方差貢獻率作為評估的權重,于是三個因子按各自的方差貢獻率加權相加為評估得分,其計算公式為,由綜合評估</p>&l

37、t;p>  得分值達大小確定各省市的消費水平。其次,根據(jù)F值的大小進行分類,F(xiàn)值圖如下,可見分類的結果與我們聚類分析的結果是一樣的,說明結果還是很可靠的。</p><p><b>  5.設計總結</b></p><p>  通過對數(shù)據(jù)分析這道實際問題的解決,不僅使我更加深刻的理解了數(shù)據(jù)分析的基礎知識,對均值聚類和因子分析有了更深刻的了解,而且使我對這些知識在實

38、際中的應用產(chǎn)生了濃厚的興趣,同時對我學習好數(shù)據(jù)分析這門課有很大幫助。在實現(xiàn)這道題的過程中我應用了SPSS數(shù)據(jù)分析軟件,學會了這個軟件的一些新的應用,更加熟練的操作該軟件進行一些數(shù)據(jù)上的處理。在以后的學習中,例如。數(shù)學建模比賽中會有很大的幫助</p><p><b>  參考文獻</b></p><p>  [1] 譚榮波.梅曉仁,SPSS統(tǒng)計分析實用教程..科學出版社

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論