2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、<p><b>  畢業(yè)論文</b></p><p>  某高校在校生體測成績的統(tǒng)計分析</p><p>  A STATISTICAL ANALYSIS OF </p><p>  COLLEGE STUDENTS THE CERVIX SCORES</p><p><b>  摘 要</b

2、></p><p>  在現(xiàn)代生活中,隨著生活水平的日漸提高,現(xiàn)在大學生的身體素質(zhì)真是越來越差了,越是學歷高的人,身體素質(zhì)普遍就越差。很多人對身體素質(zhì)這個詞并不陌生。在日常生活中,人們常說,誰誰力氣大,誰誰跑的快,或者誰誰很靈活,誰誰耐久力強。實際上這些能力都屬于身體素質(zhì)。身體素質(zhì)通常指的是人體在肌肉活動中所表現(xiàn)出來的各種能力。一般包括力量、速度、耐力、靈敏和柔韌。</p><p>

3、  因此,本文通過分析中國農(nóng)業(yè)大學2010年6290名在校生體測成績數(shù)據(jù),利用matlab統(tǒng)計分析理論建立相關(guān)模型,研究當前大學生身體素質(zhì)的真實現(xiàn)狀,該研究成果有著非常重要的應用價值。首先利用描述性統(tǒng)計分析方法對體測數(shù)據(jù)進行初步研究。再利用方差分析對13個學院的學生的身高進行單因素一元方差分析和非參數(shù)分析,判斷不同學院的學生的身高有無顯著性差異。在研究身高和體重的關(guān)系時,利用了MATLAN做了回歸模型,用一元回歸求出身高和體重的函數(shù)關(guān)系

4、,二元回歸求出來身高和體重做自變量,肺活量做因變量的函數(shù)關(guān)系。判別分析主要是用5999個學生的身高體重等級去判別291個學生的類別。</p><p>  關(guān)鍵詞:體測成績; 統(tǒng)計分析; MATLAB; 方差分析; 回歸分析; 判別分析</p><p><b>  ABSTRACT</b></p><p>  In the modern life

5、, along with the rising of living standards, college students' physical quality is worse and worse now, the more highly educated people, physical quality general the worse. A lot of people is no stranger to the word

6、physical quality. In daily life, people often say, so-and-so in strength, who can run fast, or who is very flexible, so-and-so strong endurance. In fact these abilities are physical quality. Physical quality usually refe

7、rs to the human body in muscle activity of all</p><p>  Therefore, through the analysis of China agricultural university in 2010, 6290 students cervix result data, the relevant model is established using MAT

8、LAB statistic analysis theory, research the real status of the current college students' physical quality, the results of the study has a very important application value. First,use of descriptive statistics analysis

9、 method to a preliminary study on the cervix data. Second, analysis of variance on the height of 13 students of the college on a sing</p><p>  Key words:The cervix grades; Statistic Analysis; MATLAB; Analysi

10、s of variance; Analysis of Regression; Discriminant Analysis</p><p><b>  目 錄</b></p><p><b>  1 前 言1</b></p><p>  2 常用統(tǒng)計分析方法3</p><p>  2.1

11、描述性統(tǒng)計分析3</p><p>  2.2 方差分析4</p><p>  2.3 回歸分析8</p><p>  2.4 判別分析9</p><p>  3 MATLAB主要統(tǒng)計函數(shù)簡介11</p><p>  4 某高校在校生體測成績統(tǒng)計分析13</p><p>  4.1數(shù)據(jù)

12、來源13</p><p>  4.2描述性統(tǒng)計量13</p><p>  4.3 方差分析16</p><p>  4.4 回歸分析20</p><p>  4.5判別分析26</p><p>  5 總結(jié)與不足28</p><p><b>  參考文獻29</b&

13、gt;</p><p><b>  致 謝31</b></p><p><b>  附 錄32</b></p><p><b>  1 前 言</b></p><p>  隨著我國國力的增強,我國逐漸重視大中學生體質(zhì)健康。2014年四月二十四日,教育部體衛(wèi)司司長王登峰

14、在發(fā)布會上透露,新版《國家學生體質(zhì)健康標準》已經(jīng)基本成形,和舊版相比,取消了所有選測項目,統(tǒng)一為必測項目。據(jù)介紹,新版中要求大、中學生必測長跑。測試成績分優(yōu)秀、良好、及格和不及格4個等級,分別記入學校為每個學生制作的《國家學生體質(zhì)健康標準登記卡》。教育部表示,學校沒按規(guī)定執(zhí)行的,將在學校體育工作等級評比中“不合格”。新版標準還要增加體育課學分。【13】 </p><p>  大學生的健康成長關(guān)系到一個國家和整個民

15、族發(fā)展的未來,對于我國大學生而言,其身體與智力的發(fā)展正處于關(guān)鍵時期。大學生健康體適能測試,是高校體育工作中的一個重要的組成部分,也是學校教育評價體系中所必不可少。統(tǒng)計分析這種方法從整體上反映和分析事物數(shù)量特征,可以觀察并發(fā)現(xiàn)事物的本質(zhì)和發(fā)展規(guī)律,作出正確的判斷。體測成績的統(tǒng)計分析從微觀上有助于學生自己更好的了解自己的身體健康狀態(tài),并作出相應調(diào)整。研究當前大學生身體素質(zhì)的真實現(xiàn)狀,該研究成果有著非常重要的應用價值。</p>

16、<p>  朱慧平,張曉芳在[18]中采用文獻資料法、數(shù)理統(tǒng)計法、問卷調(diào)查等方法,對甘肅省當前大學生的體質(zhì)健康狀況進行了調(diào)查研究。結(jié)果發(fā)現(xiàn):1)男生和女生體質(zhì)健康狀況存在著較大的差距,男生明顯好于女生。2)城市、縣城、村鎮(zhèn)的學生體質(zhì)健康狀況存在著一定的差異,鄉(xiāng)村學生好于城市學生。3)年級不同,學生的體質(zhì)狀況也不同,研究結(jié)果表示大二學生最好,大四學生最差,從大學一年級到四年級學生的體質(zhì)健康狀況有先提高后降低的趨勢。</p&

17、gt;<p>  李愷憲在[17]中探討不同體育生活方式對大學生的體質(zhì)狀況有什么影響以及兩者相互關(guān)系, 研究當中主要采用文獻資料、問卷調(diào)查、專家訪談等研究方法, 進行問卷調(diào)查對江蘇地區(qū)普通高校大學生的體育生活方式, 結(jié)果發(fā)現(xiàn): 不同年級的體育生活方式存在明顯的差異, 前三個年級的學生都有很好的體育生活方式,到大四之后學生的體育生活方式明顯下降; 在這些學生中調(diào)查了不同的體育生活方式并進行比較分析,結(jié)果表明, 具有良好體育生

18、活方式特征的大學生體質(zhì)狀況明顯好于另一部分大學生; 因此, 建立良好的體育生活方式, 可以提高身體機能素質(zhì), 促進柔韌、速度和耐力素質(zhì)的發(fā)展, 最終促進大學生體質(zhì)的全面發(fā)展。</p><p>  吳磊在[19]中通過體育課的體能練習提高大學生體質(zhì)測試的健康水平,結(jié)合體測的內(nèi)容設置相關(guān)的體能項目的訓練,并有針對性的進行練習。本文運用訪談法、問卷調(diào)查法、統(tǒng)計法試驗法等相關(guān)研究方法對目前高校存在的問題進行分析和總結(jié)提出

19、相關(guān)具體方案,為大學生身體素質(zhì)的提升打好基礎(chǔ)。</p><p>  本文以2010年中國農(nóng)業(yè)大學的在校生體測數(shù)據(jù)為依據(jù),主要運用統(tǒng)計分析的描述性統(tǒng)計、方差分析、回歸分析、判別分析,旨在發(fā)現(xiàn)一些規(guī)律和問題。首先從描述性統(tǒng)計量中算出各個年級的體測成績的幾個統(tǒng)計量。接著用方差分析對不同學院學生的身高分別進行了顯著性分析,用多重比較得出哪兩種學院學生的身高差異性大。在回歸分析中,先對數(shù)據(jù)做了相關(guān)性分析,查找相關(guān)性比較強的

20、,所以擬合了身高和體重的一元回歸和身高、體重。肺活量的二元回歸,最后求出回歸方程,畫出了擬合圖。在判別分析中,對身高體重等級做了分類。第一類是超重,第二類是肥胖,第三類是較低體重,第四類是營養(yǎng)不良,第五類是正常體重,用5999名學生對291名學生進行分類。</p><p>  2 常用統(tǒng)計分析方法</p><p>  2.1 描述性統(tǒng)計分析</p><p>  2.

21、1.1 常用統(tǒng)計量</p><p>  通常在得到數(shù)據(jù)并對數(shù)據(jù)進行預處理后,需要對數(shù)據(jù)進行描述性的統(tǒng)計分析。常用統(tǒng)計量有以下幾種:</p><p>  (1)樣本均值(mean),描述了樣本數(shù)據(jù)相對中的中心位置,計算公式:</p><p>  (2)樣本標準差(std),描述了樣本數(shù)據(jù)變異程度的大小,計算公式:</p><p>  (3)樣本

22、極差(range)作為樣本數(shù)據(jù)變異程度大小的一個簡單度量,計算公式:</p><p>  (4)最大值和最小值(Max和min)求樣本數(shù)據(jù)中的最大值和最小值。公式是。</p><p>  (5)中位數(shù)(Median):顧名思義就是將樣本數(shù)據(jù)從小到大依次排列,位于中間的那個觀測值,樣本P分位數(shù)定義如下 </p><p>  (6)眾數(shù)(Mode):描述了樣本觀測值數(shù)據(jù)

23、中出現(xiàn)最多的數(shù)。</p><p>  (7)變異系數(shù)是衡量數(shù)據(jù)變異程度的一個統(tǒng)計量,和標準差不同,當單位和平均值不同時,比較其變異程度就要用變異系數(shù),即標準差和平均數(shù)的比值。</p><p>  (8)樣本偏度(skewness)用來計算樣本數(shù)據(jù)的偏度,偏度反映了總體分布密度曲線的對稱性信息,偏度越接近0,說明分布越對稱。如偏度大于0說明概率密度的右尾巴長,頂點偏向左邊,偏度小于0說明概率

24、密度的左尾巴長,頂點偏向右邊,計算公式:,其中為樣本k階中心矩。</p><p>  (9)樣本k階中心矩(moment):</p><p>  (10)樣本的峰度(Kurtosis)反映了總體分布密度曲線在其峰值附近的陡峭程度,計算公式:</p><p>  2.1.2 常用統(tǒng)計圖</p><p>  1.直方圖(hist/hist3)&l

25、t;/p><p>  在觀察數(shù)據(jù)所服從的分布時,直方圖是非常簡潔實用的。做直方圖的步驟如下:</p><p>  (1)將樣本觀測值從小到大排序得.</p><p>  (2)適當選取略小于的數(shù)與略大于的數(shù),將區(qū)間隨意分為個不相交的小區(qū)間,記第個小區(qū)間為,其長度為.</p><p>  (3)把樣本觀測值逐個分到各區(qū)間內(nèi),并計算樣本觀測值落在各區(qū)

26、間內(nèi)的頻數(shù)及頻率.</p><p>  (4)在軸上截取各區(qū)間,并以各區(qū)間為底,以為高作小矩形,就得到頻數(shù)直方圖,若以為高作小矩形,就得到頻率直方圖。</p><p>  MATLAB中繪制頻數(shù)直方圖的函數(shù)是hist和hist3(二元變量的三維直方圖)。</p><p>  2.箱線圖(boxplot)</p><p><b>  

27、箱線圖的做法如下:</b></p><p>  (1)畫一個箱子,其左側(cè)線為樣本0.25分位數(shù)位置,其右側(cè)線為樣本0.75分位數(shù)位置,在樣本中位數(shù)(即0.5分位數(shù))位置上畫一條豎線,畫在箱子內(nèi)。這個箱子包含了樣本中50%的數(shù)據(jù)。</p><p>  (2)在箱子左右兩側(cè)各引出一條水平線,左側(cè)線畫至樣本最小值,右側(cè)線畫至樣本最大值,這樣每條線段包含了樣本25%的數(shù)據(jù)。</p

28、><p>  以上兩步得到的圖形就是樣本數(shù)據(jù)的水平箱線圖,當然箱線圖也可以作成豎直的形式。從箱線圖上能大概看出樣本數(shù)據(jù)的分布情況。</p><p><b>  2.2 方差分析</b></p><p>  方差分析產(chǎn)生于英國,它是由統(tǒng)計學家R.A.Fisher在20世紀20年代提出的一種統(tǒng)計方法。方差分析是分析試驗(或觀測)數(shù)據(jù)的一種統(tǒng)計方法。在工

29、農(nóng)業(yè)生產(chǎn)和科學研究中,經(jīng)常要分析各種因素之間的交互作用對研究對象某些指標值的影響。在方差分析中,把試驗數(shù)據(jù)的總波動(總變差或總方差)分解為由所考慮因素引起的波動(各因素的變差)和隨機因素引起的波動(誤差的變差),然后通過分析比較這些變差來推斷哪些因素對所考察指標的影響是顯著的,哪些是不顯著的。也就是分析在諸多因素中哪些因素是主要的,哪些是次要的,以及主要因素處于何種狀態(tài)時,才能使所考察的指標達到一個較高的水平,這就是方差分析所要解決的問

30、題。</p><p>  本文主要對數(shù)據(jù)中的13個學院學生的身高進行了單因素一元方差分析和非參數(shù)方差分析,其中單因素一元方差分析,樣本數(shù)據(jù)應滿足方差分析的幾個基本假定,即(1)所有樣本均來自正態(tài)總體(2)這些正態(tài)總體具有相同的方差(3)所有觀測值相互獨立,即獨立抽樣。在前兩個假定基本滿足的情況下,一般認為方差分析檢驗(ANOVA test)是穩(wěn)健的。</p><p>  (1)單因素方差分

31、析的數(shù)學模型。設因素有個水平,對應試驗指標的個總體,記為,它們的分布為</p><p><b> ?。?-1) </b></p><p>  今從這個總體中各自獨立地抽取一個樣本,取自的樣本記為 列表如表2-1所示。</p><p>  表 2-1 單因素方差分析的樣本數(shù)據(jù)</p><p><b>  其中&

32、lt;/b></p><p><b>  (2-2)</b></p><p>  單因素方差分析的數(shù)學模型為</p><p>  . (2-3)</p><p>  其中表示獨立同分布。欲檢驗因素對試驗指標有無顯著影響,相當于檢驗</p><p>  不全相等. (2-4)

33、 </p><p>  原假設成立表示因素對試驗指標無顯著影響。令</p><p>  則(2-3)式可改寫為</p><p><b>  (2-5)</b></p><p><b>  (2-4)式等價于</b></p>&

34、lt;p>  這里的稱為因素的第個水平所引起的效應,可以看成對總平均的“貢獻”大小。若,稱的效應為正,若,稱的效應為負。</p><p>  (2)單因素方差分析的原理,作(2-4)式的假設檢驗,應從分析樣本數(shù)據(jù)的差異入手,數(shù)據(jù)的差異可分為系統(tǒng)偏差和隨機誤差,來自不同總體樣本數(shù)據(jù)之間的差異稱為系統(tǒng)偏差,來自同一總體樣本數(shù)據(jù)之間的差異稱為隨機誤差。樣本數(shù)據(jù)之間的差異通常用離差平方和(樣本觀測數(shù)據(jù)與總均值的差的

35、平方和)來表示,方差分析就是將樣本數(shù)據(jù)的總的離差平方和分解為兩部分,一部分為因素所造成的離差平方和,即系統(tǒng)偏差,又稱為組間離差平方和;另一部分為隨機因素所造成的離差平方和,即隨機誤差,又稱為組內(nèi)離差平方和。然后根據(jù)兩部分平方和構(gòu)造檢驗統(tǒng)計量,推導統(tǒng)計量所服從的分布,最后寫出拒絕域。直觀上可以這樣理解:若總離差平方和中主要是組間離差平方和,組內(nèi)離差平方和所占比重非常小,則可認為各組數(shù)據(jù)之間的差異是顯著的,即因素對試驗指標的影響是顯著的;若

36、總離差平方和中主要是組內(nèi)離差平方和,組間離差平方和所占比重非常小,則可認為因素對試驗指標的影響是不顯著的。</p><p>  (3)離差平方和及自由度的分解,從模型(2-5)式可以看出</p><p> ?。?-6) 上式左邊表示每一個樣本觀測數(shù)據(jù)與總均值的偏差,這個偏差被分成兩部分,其中表示由因素的不同水平所引起的系統(tǒng)偏差,表示隨機誤差。令</p><p>  

37、用作為的估計,作為的估計,作為的估計,則(2-6)式為</p><p>  記表示總離差平方和,則</p><p><b>  令</b></p><p>  可以看出,為因素所造成的離差平方和,稱為組間離差平方和,為隨機因素所造成的離差平方和,稱為組內(nèi)離差平方和。這樣就有如下平方和分解式</p><p>  為了構(gòu)造檢

38、驗統(tǒng)計量并推導其分布,引入如下定理。</p><p>  在以上記號下,對于模型(2-5)式,有以下結(jié)論成立。</p><p><b>  · ;</b></p><p>  · 原假設成立時,,與相互獨立。</p><p>  對于(2-4)式的假設檢驗,構(gòu)造檢驗統(tǒng)計量</p>&l

39、t;p>  其中稱為組間均方離差平方和,稱為組內(nèi)均方離差平方和。由定理可知,當原假設成立時,</p><p>  直觀上可以看出,當統(tǒng)計量的觀測值大于某個臨界值時,應拒絕原假設,所以對于給定的顯著性水平,拒絕域為</p><p>  其中為分布的上側(cè)分位數(shù)。</p><p>  (4)單因素方差分析表</p><p>  根據(jù)以上過程列

40、出單因素方差分析表,如表2-2所示。</p><p>  表 2-2 單因素方差分析表</p><p>  方差分析表很直觀地展現(xiàn)了方差分析的過程,通過對比值與臨界值的大小,作出最后的結(jié)論。也可以將表格最后一列的臨界值換成檢驗的值,其中。對于給定的顯著性水平,當時,應拒絕原假設,即認為因素對試驗指標有顯著影響,并且值越小,顯著性越強;當時,應接受原假設,即認為因素對試驗指標無顯著影響。&

41、lt;/p><p>  非參數(shù)方差分析不要求樣本來自于正態(tài)總體,也不要求正態(tài)總體具有相同的方差,即不要求正態(tài)性和方差性假定。當樣本不滿足這正態(tài)性和方差性的假定時,就要采取基于秩的非參數(shù)檢驗,本文中主要用Kruskal-Walls檢驗。MATLAB工具箱中提供了kruskalwalls函數(shù),用來做單因素非參數(shù)方差分析。檢驗的原假設是:k個獨立樣本來自于相同的總體。當原假設成立時,并且樣本容量足夠大時,檢驗統(tǒng)計量H近似服

42、從自由度為k-1的分布,即</p><p><b>  (2-7)</b></p><p>  其中,k為樣本數(shù),為第j個樣本的樣本容量,,為第j個樣本的秩和。對于給定的顯著性水平,當H的觀測值大于或等于,拒絕原假設,表示k個獨立樣本來自于不同的總體,或者說k個樣本有顯著性差異?!?6】</p><p><b>  2.3 回歸分析&

43、lt;/b></p><p>  在客觀世界中變量之間的關(guān)系普遍存在。變量之間的關(guān)系一般說可以分為非確定性和確定性這兩種。非確定性關(guān)系即所謂相關(guān)關(guān)系。例如人的身高和體重之間存在著關(guān)系,一般來說越高體重越重,有時同樣身高的人,體重也是不一樣的,之所以有這種關(guān)系,是因為我們涉及的變量是隨機變量。確定性關(guān)系是指變量之間的關(guān)系可以用函數(shù)表達?;貧w分析研究的是相關(guān)關(guān)系的一種數(shù)學工具,這種工具能從一個變量取得值去估計另

44、一個變量所取的值。用來認識事物的內(nèi)在規(guī)律和本質(zhì)屬性?!?6】</p><p><b>  (1)一元回歸模型</b></p><p>  設有兩個變量和,其中是可以精確測量或控制的非隨機變量,是隨機變量,假定隨機變量與可控變量之間存在線性相關(guān)關(guān)系,建立與的數(shù)學模型如下:</p><p><b> ?。?-8)</b><

45、;/p><p>  其中未知參數(shù)和都不依賴于。稱(2.8)式為關(guān)于的一元線性回歸模型,其中稱為回歸系數(shù)。由一元線性回歸模型可知,當固定時,,令,它是固定時隨機變量的數(shù)學期望。直線近似表示了與的線性相關(guān)關(guān)系,稱為關(guān)于的回歸函數(shù),稱為關(guān)于的理論回歸方程。</p><p>  (2) 參數(shù)的最小二乘估計</p><p>  對作次獨立的觀測,得到觀測數(shù)據(jù).根據(jù)(2-8)式可得

46、</p><p>  其中表示獨立同分布。令</p><p>  二元函數(shù)的最小值點稱為的最小二乘估計,通過解下面方程組求得</p><p><b>  (2-9)</b></p><p><b>  其中</b></p><p>  當方程組(2-9)的系數(shù)矩陣的行列式&l

47、t;/p><p><b>  可以解得</b></p><p><b>  (2-10)</b></p><p><b>  其中</b></p><p>  將代入理論回歸方程可得,稱之為關(guān)于的經(jīng)驗回歸方程。由于</p><p>  可知關(guān)于的經(jīng)驗回歸直線

48、一定過點. 可以證明估計量服從以下分布:</p><p> ?。?-11) </p><p>  從而可知分別是的無偏估計。</p><p>  (3) 回歸方程的顯著性檢驗</p><p>  對于變量和的任意對觀測值,只要不全相等,則無論變量和之間是否存在線性相關(guān)關(guān)系,都可根據(jù)上面介紹的方法求得一個線性回

49、歸方程. 顯然,只有當變量和之間存在線性相關(guān)關(guān)系時,這樣的線性回歸方程才是有意義的。為了使求得的線性回歸方程真正有意義,就需要檢驗變量和之間是否存在顯著的線性相關(guān)關(guān)系。若和之間存在顯著的線性相關(guān)關(guān)系,則回歸模型(2-8)式中的不應為0,因為若,則就不依賴于了。因此需要檢驗假設</p><p><b>  (2-12)</b></p><p><b>  檢驗

50、</b></p><p>  圖 2-1離差分解示意圖</p><p>  如圖2-1所示,每個觀測點處的與均值的離差被分解為兩部分,即</p><p>  于是總離差平方和可作如下分解</p><p><b>  可以證明. 令</b></p><p><b>  則有&

51、lt;/b></p><p><b> ?。?-13)</b></p><p>  這里的為總離差平方和,它被分解為兩部分。其中是估計值的離差平方和,反映了的總變差中由于與之間的線性關(guān)系所引起的的變差,稱為回歸平方和。就是前文中的,稱為殘差平方和(或剩余平方和),它反映了的總變差中不能由回歸直線來解釋的變差。由圖2-6可以看出,若總離差平方和中主要是回歸平方和,

52、殘差平方和所占比重非常小,則說明觀測數(shù)據(jù)的散點基本集中在回歸直線附近,進一步說明和之間存在顯著的線性相關(guān)關(guān)系,因此可以根據(jù)和構(gòu)造檢驗統(tǒng)計量,檢驗和之間的線性相關(guān)關(guān)系是否顯著。</p><p> ?。?)多重線性回歸分析原理</p><p>  設隨機變量與個可控變量之間存在線性相關(guān)關(guān)系,建立與的數(shù)學模型如下:</p><p><b>  (2-14)<

53、;/b></p><p>  其中未知參數(shù)和都不依賴于. 稱(2-14)式為關(guān)于的重線性回歸模型,其中稱為回歸系數(shù)。類似于一元線性回歸,稱為關(guān)于的理論回歸方程。</p><p><b>  2.4 判別分析</b></p><p>  判別分析是對樣本進行分類,但是和聚類分析不一樣,判別分析的研究對象是已經(jīng)有了分類,,根據(jù)抽取的樣本建立

54、判別公式和判別標準,然后用這些公式和標準判別未知的類別的樣本的類別。</p><p>  本文主要用距離判別,其中距離判別的基本思想是首先根據(jù)已知分類的數(shù)據(jù),分別計算各類的重心,即分組均值,判別標準:對于任給一次觀測值,若她與i類的重心距離最近,就認為她來自第i類。馬氏距離原理設G是維總體,它的分布的均值向量和協(xié)方差矩陣分別為</p><p><b> ?。?-15)</b

55、></p><p>  設為取自總體G的兩個樣品,假定(為正定矩陣),定義x,y間的平方馬氏距離為</p><p>  定義x到總體G的平方馬氏距離為</p><p><b> ?。?-16)</b></p><p>  兩個總體的判別,設有兩個p維總體,分布的均值分別為,協(xié)方差矩陣分別為。從兩總體中分別抽取容量為

56、的樣本,記為?,F(xiàn)有一未知類別的樣品,記為x,試試判別x的歸屬,現(xiàn)有以下判別規(guī)則</p><p>  當時,判定;否則判定。若相等則待判。這是通常為馬氏距離。在采用馬氏距離的情況下,下面分情況進行討論。</p><p><b> ?。?)已知時</b></p><p><b>  將兩個距離相減可得</b></p>

57、;<p><b> ?。?-17)</b></p><p><b>  令</b></p><p><b> ?。?-18)</b></p><p>  則判別規(guī)則還可表示為</p><p><b>  (2-19)</b></p>

58、;<p>  稱W(x)為兩組距離判別的線性判別函數(shù),a為判別系數(shù)。</p><p><b>  (2)已知時</b></p><p><b>  令</b></p><p><b> ?。?-20)</b></p><p>  則為二次判別函數(shù),判別規(guī)則為<

59、;/p><p><b>  (2-21) </b></p><p><b>  (3)未知時</b></p><p>  在實際問題中,這種情況最為常見,此時有樣本對進行估計</p><p>  于是可得平方馬氏距離的估計和二次判別函數(shù)的估計</p><p><b> 

60、?。?-22)</b></p><p>  將格式(2-21)中的換位,即可得此種情況的判別規(guī)則。</p><p>  3 MATLAB主要統(tǒng)計函數(shù)簡介</p><p>  MATLAB意為矩陣工廠(Matrix&Laboratory兩個詞的組合,)。MATLAB是由美國The Mathworks公司發(fā)布的。MATLAB的基本數(shù)據(jù)單位是矩陣,它的

61、指令表達式與數(shù)學、工程中常用的形式十分相似,故用MATLAB來解算問題要比用C,F(xiàn)ORTRAN等語言完成相同的事情簡捷得多,并且MATLAB也吸收了像Maple等軟件的優(yōu)點,使MATLAB成為一個強大的數(shù)學軟件。在新的版本中也加入了對C,F(xiàn)ORTRAN,C++,JAVA的支持??梢灾苯诱{(diào)用,用戶也可以將自己編寫的實用程序?qū)氲組ATLAB函數(shù)庫中方便自己以后調(diào)用。數(shù)據(jù)分析的目的是利用數(shù)據(jù)來研究一個領(lǐng)域的具體問題。數(shù)據(jù)分析的過程包括確定數(shù)

62、據(jù)分析的目標、研究設計、收集數(shù)據(jù)、分析數(shù)據(jù)、解釋結(jié)果。從數(shù)據(jù)分析的整個過程來看,軟件的使用主要是在數(shù)據(jù)整理與分析階段。軟件所起的主要作用是整理、計算、繪制圖表等。MATLAB 在統(tǒng)計分析方面的知識,有很多軟件都可以用作統(tǒng)計分析與計算,比如SAS、Spss、Splus等軟件。在這些軟件中,MATLAB的功能無疑是最強大的。MATLAB有簡便的編程語言,還有包羅萬象的工具箱,易學易用,學</p><p>  本文主要

63、用了描述性統(tǒng)計、方差分析、回顧分析、判別分析對2010中國農(nóng)大的體測成績進行分析。主要涉及的函數(shù)有:</p><p>  (1)num = xlsread(filename, range)</p><p>  從指定文件名夾讀取,輸入?yún)?shù)filename是由單引號括起來的字符串。輸入?yún)?shù)range是所在的單元格范圍,比如說range='A1:A8'。比如說num=xlsre

64、ad('2010.xls'),即從當前程序所在文件夾里,從A1單元格開始讀取,讀取2010.xls文件,把數(shù)據(jù)返回給num。</p><p>  (2)[p,table,stats] = anova1(X,group),anova1函數(shù)是單因素一元方差分析。原假設是輸入?yún)?shù)X的各列所對應的總體具有相同的均值。矩陣X的列數(shù)表示因素的水平數(shù),矩陣X的行數(shù)表示樣本容量。輸入的參數(shù)group可以是字符串元

65、胞數(shù)組或是字符數(shù)組,用來指明每組的組名,在本文是學院名稱。輸出參數(shù)p是檢驗的p值,對于給定的顯著性水平,如果,則拒絕原假設。認為X的各列所對應的總體具有不完全相同的均值。反之,則接受原假設。輸出參數(shù)table是元胞數(shù)組形式的方差分析表。方差分析表有六列,第一列為方差來源,方差來源有組間(Columns)、組內(nèi)(Error)和總計(Totel)第二列為各方差來源所對應的的平方和(SS)。第三列為個方差所對應的自由度(df)。第四列為各方差

66、來源所對應的均方(MS),MS=SS/df。第五列為F檢驗統(tǒng)計量的觀測值,它是組間均方和組內(nèi)均方的比值。第六列為檢驗p值,是根據(jù)F檢驗統(tǒng)計量的分布得出的。輸出的stats是結(jié)構(gòu)體變量,用于進行后續(xù)的多重比較。還會返回箱線圖。</p><p>  [p,table,stats] =kruskalwallis(X,group),kruskalwallis函數(shù)是非參數(shù)方差分析。輸出參數(shù)和上面的anova1函數(shù)返回的一樣

67、,輸入?yún)?shù)也一樣。</p><p> ?。?)R=corrcoef(data),進行相關(guān)性分析,求相關(guān)系數(shù)。輸入?yún)?shù)data是矩陣,得到的結(jié)果是一個n*n矩陣相關(guān)系數(shù)矩陣。</p><p> ?。?)mdl=LinearModel.fit(x,y),LinearModel.fit函數(shù)是做一元線性回歸。輸入?yún)?shù)x是自變量觀測矩陣,輸入y是因變量觀測矩陣,x和y具有相同的行。輸出線性回歸模型的

68、參數(shù)。</p><p>  (5)class=classify(sample,training,group),其中輸入?yún)?shù)sample是全部樣本數(shù)據(jù),即6290個學生的身高,體重,肺活量數(shù)據(jù)。輸入?yún)?shù)training是已知組別的樣本數(shù)據(jù),即5999名學生的身高,體重,肺活量數(shù)據(jù)。輸入?yún)?shù)group是樣本的分組信息數(shù)據(jù),其中第一類是超重,第二類是肥胖,第三類是較低體重,第四類是營養(yǎng)不良,第五類是正常體重,用前599

69、9名學生判別291個同學的類別。</p><p>  4 某高校在校生體測成績統(tǒng)計分析</p><p><b>  4.1數(shù)據(jù)來源</b></p><p>  本文數(shù)據(jù)取自2010年體測成績(中國農(nóng)大)共有學生6290個學生,三個年級,測試成績有身高,體重,身高體重等級,肺活量,肺活量體重指數(shù),肺活量體重分數(shù),耐力類項目成績,耐力類項目分數(shù),耐

70、力類項目等級,柔韌、力量項目成績,柔韌、力量項目分數(shù)、柔韌、力量項目等級,速度、靈巧類項目成績,速度、靈巧類項目分數(shù),速度、靈巧類項目等級,測試總分,總分等級。數(shù)據(jù)來源于中國農(nóng)業(yè)大學體質(zhì)健康測試中心:http://tice.cau.edu.cn/tyb_clt/news/user/title.action?typeid=27,部分數(shù)數(shù)據(jù)件附錄。</p><p><b>  4.2描述性統(tǒng)計量</b

71、></p><p>  樣本數(shù)據(jù)是中國農(nóng)業(yè)大學2010年的體測數(shù)據(jù),在初步接觸樣本數(shù)據(jù)中國農(nóng)業(yè)大學2010年的體測數(shù)據(jù)之前,有必要先從幾個特征數(shù)認識一下它們,也就是先用MATLAB軟件計算出樣本的幾個描述性統(tǒng)計量。包括均值(mean)標注差(std)最大值(max)最小值(min)極差(range)中位數(shù)(median)眾數(shù)(mode)變異系數(shù)(cvar)偏度(skewness)峰度(krtosis)。通過

72、以下表格形式給出,相關(guān)程序放在附件中。</p><p>  09級學生各個測試成績數(shù)據(jù)的描述性統(tǒng)計量如表4-1。</p><p>  08級學生各個測試成績數(shù)據(jù)的描述性統(tǒng)計量如表4-2。</p><p>  07級學生各個測試成績數(shù)據(jù)的描述性統(tǒng)計量如表4-3。</p><p>  表 4-1 09級學生各個測試成績數(shù)據(jù)的描述性統(tǒng)</p&

73、gt;<p>  表4-2 08級各個測試成績數(shù)據(jù)的描述性統(tǒng)計量</p><p>  表 4-3 07級各個測試成績的描述性統(tǒng)計量</p><p><b>  4.3 方差分析</b></p><p>  本節(jié)主要研究13個學院學生的身高有無顯著性差異,在進行了單因素一元方差分析,先進行正態(tài)性檢驗和方差齊性檢驗,樣本數(shù)據(jù)不符合這

74、兩個檢驗,那就進行非參數(shù)方差分析。</p><p>  4.3.1 正態(tài)性檢驗</p><p>  調(diào)用lillietest函數(shù)分別對13個學院學生身高進行正態(tài)性檢驗,相應程序如下:</p><p>  >> [x,y]=xlsread('2010.xls');%讀取文件</p><p>  >> sg

75、=x(:,3);</p><p>  % 提取矩陣x的第3列數(shù)據(jù),即全部學生的身高</p><p>  >> college=y(2:end,1);% 提取元胞數(shù)組y的第1列的第2行至最后一行數(shù)據(jù),即全部學生所在學院的名稱數(shù)據(jù)</p><p>  >> college_id = x(:,1);% 提取矩陣x的第1列數(shù)據(jù),即全部同學所在學院的編

76、號數(shù)據(jù)</p><p>  >>%*******************正態(tài)性檢驗**************************</p><p>  % 調(diào)用lillietest函數(shù)分別對13個學院學生的身高進行正態(tài)性檢驗</p><p>  >> for i=1:13</p><p>  sgi=sg(coll

77、ege_id==i);% 提取第i個學院的身高數(shù)據(jù)</p><p>  [h,p]=lillietest(sgi);% 正態(tài)性檢驗</p><p>  result(i,:)=p% 把檢驗的p值賦給result變量</p><p><b>  end</b></p><p><b>  result =<

78、/b></p><p><b>  0.1538</b></p><p><b>  0.0010</b></p><p><b>  0.1627</b></p><p><b>  0.0010</b></p><p>&

79、lt;b>  0.0201</b></p><p><b>  0.0206</b></p><p><b>  0.0010</b></p><p><b>  0.0382</b></p><p><b>  0.0010</b>&l

80、t;/p><p><b>  0.0335</b></p><p><b>  0.0037</b></p><p><b>  0.3248</b></p><p><b>  0.0792</b></p><p>  運行以上程序得

81、出檢驗的p值,可知動科學院、工學院的p值大于0.05,在顯著性水平0.05下可認為這兩個學院的學生身高服從正態(tài)分布。</p><p>  4.3.2 方差齊性檢驗</p><p>  調(diào)用vartestn函數(shù)分別對13個學院學生身高進行方差齊性性檢驗,相應程序如下:</p><p>  >>%******************方差齊性檢驗*******

82、*****************</p><p>  % 調(diào)用vartestn函數(shù)進行方差齊性檢驗</p><p>  >> [p,stats]=vartestn(sg,college)</p><p><b>  p =</b></p><p>  9.4377e-013</p><p

83、>  從上面結(jié)果可以看出,檢驗的p值p= 9.4377e-013<0.05,說明在顯著性水平0.05下拒絕原假設,即不滿足方差分析的基本假設。Vartestn函數(shù)還生成了兩個圖形:分組匯總表(Group Summary Table)和箱線圖。箱線圖如圖4-1所示。</p><p><b>  stats = </b></p><p>  chisqstat

84、: 83.3505</p><p><b>  df: 12</b></p><p>  Group Summary Table</p><p>  Group Count Mean Std Dev</p><p>  動科學院

85、 331 167.926 8.8484</p><p>  動醫(yī)學院 304 166.7526 8.2034</p><p>  工學院 805 169.4667

86、7.3946</p><p>  經(jīng)濟管理學院 723 166.8833 7.0331</p><p>  理學院 451 168.571 8.5757</p><p>  農(nóng)學與生物技術(shù)學院 102

87、5 166.854 7.9307</p><p>  人文與發(fā)展學院 347 165.5951 7.1121</p><p>  生物學院 368 168.5467 8.3122</p>&l

88、t;p>  食品科學與營養(yǎng)工程學院 462 166.2325 6.8377</p><p>  水利與土木工程學院 582 169.1703 6.8839</p><p>  信息與電氣工程學院 753 169.6278 7

89、.2492</p><p>  資源與環(huán)境學院 121 167.405 8.394</p><p>  教務處 18 169.9556 8.2329</p><p>  Pooled

90、 6290 167.9161 7.62</p><p>  Bartlett's statistic 83.3505</p><p>  Degrees of freedom 12</p><p>  p-value 9.4377e-013</p&g

91、t;<p>  分組匯總表包含了分組的一些信息,有組名(即學院名稱)Group,各組所包含的樣本容量Count,各學院的身高平均值Mean, 各學院的身高標準差Std Dev。Pooled所在的行表示樣本的聯(lián)合信息,包括總?cè)藬?shù),總平均值和樣本聯(lián)合標準差。分組匯總表的最后一部分是方差齊性檢驗的相關(guān)信息,包括Bartlett檢驗統(tǒng)計量的觀測值、自由度和檢驗的p值。</p><p>  4.3.3 非參數(shù)

92、方差分析</p><p>  單因素一元方差分析要求各組樣本均來自于正態(tài)總體,并且各正態(tài)總體需要具有相同的方差,在樣本數(shù)據(jù)不滿足這些條件的情況下,還可對身高進行非參數(shù)方差分析。下面調(diào)用kruskalwallis函數(shù)對身高進行非參數(shù)方差分析,代碼如下,相應的方差分析表如表4-4所列 </p><p>  [data,str] = xlsread('2010.xls

93、');sg = data(:,1);group = str(2:end,1);[p,table,stats]=kruskalwallis(sg,group) </p><p>  表 4-4 非參數(shù)方差分析表</p><p>  圖 4-1 13個學院的學生身高的箱線圖</p><p>  從結(jié)果看出,krusk

94、alwallis函數(shù)返回的p值小于0.05,說明在顯著性水平0.05下,拒絕原假設,認為不同學院的學生身高有顯著性差異。</p><p>  4.3.4 多重比較</p><p>  由于kruskalwallis非參數(shù)檢驗13個學院學生的身高有顯著性差異,下面通過多重比較來檢驗在哪兩種學院學生的身高的差異是顯著的,調(diào)用multcompare函數(shù)對不同學院的學生身高進行多重比較,代碼如下:

95、</p><p>  >> % 調(diào)用multcompare對不同不同學院的學生身高進行多重比較</p><p>  >> [c,m,h,gnames] = multcompare(stats);</p><p>  >> c; % 查看多重比較的結(jié)果矩陣c</p><p>  >> [gname

96、s,num2cell(m)] % 把m矩陣轉(zhuǎn)為元胞數(shù)組,與gnames放在一起顯示</p><p><b>  ans = </b></p><p>  '動科學院' [3.1246e+03] [ 99.8107]</p><p>  '動醫(yī)學院'

97、 [2.8153e+03] [104.1488]</p><p>  '工學院' [3.5271e+03] [ 64.0019]</p><p>  '經(jīng)濟管理學院' [2.8797e+03] [ 67.5339]</p><p>  '理學院'

98、; [3.2788e+03] [ 85.5072]</p><p>  '農(nóng)學與生物技術(shù)學院' [2.9029e+03] [ 56.7191]</p><p>  '人文與發(fā)展學院' [2.5881e+03] [ 97.4824]</p><p>  &#

99、39;生物學院' [3.2824e+03] [ 94.6601]</p><p>  '食品科學與營養(yǎng)工程學院' [2.7311e+03] [ 84.4831]</p><p>  '水利與土木工程學院' [3.4725e+03] [ 75.2713]</p><p>

100、;  '信息與電氣工程學院' [3.5882e+03] [ 66.1749]</p><p>  '資源與環(huán)境學院' [3.0212e+03] [165.0814]</p><p>  '教務處' [3.5164e+03] [428.0107]</p>

101、<p>  運行以上程序,得出動科學院和人文與發(fā)展學院、工學院、信息與電氣工程學院學生的身高差異顯著。動醫(yī)學院和工學院、信息與電氣工程學院學生的身高差異顯著。工學院和動科學院、動醫(yī)學院、經(jīng)濟管理學院、農(nóng)學與生物技術(shù)學院、人文與發(fā)展學院、食品科學與營養(yǎng)工程學院學生的身高差異顯著。經(jīng)濟管理學院和工學院、水利和土木工程學院、信息與電氣工程學院學生的身高差異顯著。理學院和人文與發(fā)展學院、食品科學與營養(yǎng)工程學院學生的身高差異顯著。農(nóng)

102、學與生物技術(shù)學院和工學院、水利和土木工程學院、息與電氣工程學院學生的身高差異顯著。人文與發(fā)展學院和動科學院、工學院、理學院、生物學院、土木工程學院、息與電氣工程學院學生的身高差異顯著。生物學院和人文與發(fā)展學院、食品科學與營養(yǎng)工程學院學生的身高差異顯著。食品科學與營養(yǎng)工程學院和工學院、水利和土木工程學院、信息與電氣工程學院學生的身高差異顯著。水利和土木工程學院和動醫(yī)學院、人文與發(fā)展學院、食品科學與營養(yǎng)工程學院學生的身高差異顯著。信息與電氣

103、工程學院和動科學院、動醫(yī)學院、經(jīng)濟管理學院、農(nóng)學與生物技術(shù)學院、人文與發(fā)展學院、食品科學與營養(yǎng)工程學院學生的身高差異顯著。</p><p><b>  4.4 回歸分析</b></p><p>  本節(jié)先對各個數(shù)據(jù)進行相關(guān)性分析,觀察各數(shù)據(jù)的相關(guān)性,在進行回歸分析時,主要對身高和體重的一元回歸,身高、體重和肺活量的二元回歸。其中sg代表身高,tz代表體重,sgtzfs

104、代表身高體重分數(shù),fhl代表肺活量,fhltzfs代表肺活量體重分數(shù),nl代表耐力,nlfs代表耐力分數(shù),rrll代表柔韌力量,rrllfs代表柔韌力量分數(shù),sdlq代表速度靈巧,sdlqfs代表速度靈巧分數(shù),zf代表總分。</p><p>  4.4.1 相關(guān)性分析</p><p>  調(diào)用corrcoef函數(shù)對樣本數(shù)據(jù)進行相關(guān)分析,得到的相關(guān)性系數(shù)矩陣如表4-5所列(見附錄)。調(diào)用Ma

105、trixplot函數(shù)對相關(guān)矩陣作圖,得到的相關(guān)系數(shù)矩陣圖如圖4-2所示,相應的MATLAB代碼如下: </p><p>  >> data=xlsread('2010.xls');%讀取數(shù)據(jù)</p><p>  >> data(:,[1 2 6 10 13 16 19 ])=[];%選取數(shù)據(jù)</p><p>  >>

106、; R=corrcoef(data);%進行相關(guān)性分析</p><p>  >>XVarNames={'sg','tz','sgtifs','fhl','fhltzzs','fhltzfs','nl','nlfs','rrll','rrllfs'

107、;,'sdlq','sdlqfs','zf'};</p><p>  >>matrixplot(R,'FigShap','e','FigSize','Auto','ColorBar','on','XVarNames',XVarNames,

108、9;YVarNames',XVarNames);%畫圖</p><p>  圖 4-4 各數(shù)據(jù)相關(guān)系數(shù)矩陣圖</p><p>  4.4.2 身高和體重的一元線性回歸</p><p>  調(diào)用LinearModel.fit函數(shù)對身高體重做一元回歸分析,擬合效果圖如圖4-3所示,相關(guān)代碼如下:</p><p>  >> da

109、ta=xlsread('2010.xls');</p><p>  >> y=data(:,4);</p><p>  >> x=data(:,3);</p><p>  >> mdl=LinearModel.fit(x,y)</p><p><b>  mdl = </b&

110、gt;</p><p>  Linear regression model:</p><p>  y ~ 1 + x1</p><p>  Estimated Coefficients:</p><p>  Estimate SE tStat pValue</p><p>  ____

111、____ ________ _______ ______</p><p>  (Intercept) -100.28 2.1539 -46.555 0 </p><p>  x1 0.94677 0.012814 73.888 0 </p>&l

112、t;p>  Number of observations: 6290, Error degrees of freedom: 6288</p><p>  Root Mean Squared Error: 7.85</p><p>  R-squared: 0.465, Adjusted R-Squared 0.465</p><p>  F-statisti

113、c vs. constant model: 5.46e+03, p-value = 0</p><p>  >> yhat=0.94677*x-100.28;>> plot(x, y, 'k.', 'Markersize', 15)%散點圖>> hold on&

114、gt;> plot(x, yhat, 'linewidth', 3)%回歸直線>> xlabel('身高(x)')>> ylabel('體重(y)') </p><p>  圖 4-3 身高體重擬合圖</p><p>  運行以上代碼得出一元線性回歸

115、方程,y是體重,x是身高。對回歸方程進行顯著性檢驗,檢驗的p值等于0,小于0.05,說明回歸方程顯著。</p><p>  4.4.3 身高、體重和肺活量的二元回歸</p><p>  調(diào)用LinearModel.fit函數(shù)對在用身高和體重做自變量,肺活量做因變量,做二元回歸,擬合效果圖如圖4-4所示,相應代碼如下:</p><p>  >> data=

116、xlsread('2010.xls');</p><p>  >> x=data(:,3:4);</p><p>  >> y=data(:,7);</p><p>  >> mdl=LinearModel.fit(x,y)</p><p><b>  mdl = </b&g

117、t;</p><p>  Linear regression model:</p><p>  y ~ 1 + x1 + x2</p><p>  Estimated Coefficients:</p><p>  Estimate SE tStat pValue </p><p&g

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論