版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、,了解:相關(guān)關(guān)系的概念、種類(lèi),第9章 相關(guān)與回歸分析,重點(diǎn)掌握:1.相關(guān)系數(shù)的計(jì)算及其意義2.回歸方程的建立和估計(jì)標(biāo)準(zhǔn)誤,一般掌握: 相關(guān)分析的內(nèi)容、任務(wù) 相關(guān)表和EXCEL應(yīng)用等,第1節(jié) 相關(guān)的概念和種類(lèi)第2節(jié) 直線(xiàn)相關(guān)分析第3節(jié) 直線(xiàn)回歸分析第4節(jié) 估計(jì)標(biāo)準(zhǔn)誤差第5節(jié) 回歸方程的檢驗(yàn)與預(yù)測(cè),第1節(jié) 相關(guān)的概念和種類(lèi),1 變量間的相互關(guān)系,當(dāng)一個(gè)或幾個(gè)變量取一定的值時(shí),另一個(gè)變量有確定值
2、與之對(duì)應(yīng),稱(chēng)這種關(guān)系為確定性的函數(shù)關(guān)系。函數(shù)關(guān)系是一種嚴(yán)格的依存關(guān)系,這種關(guān)系可用y = f(x)的方程表現(xiàn)。各觀測(cè)點(diǎn)落在一條線(xiàn)上。,(1)函數(shù)關(guān)系,(1)某種商品的銷(xiāo)售額(y)與銷(xiāo)售量(x)之間的關(guān)系可表示為y =px (p 為單價(jià))(2)圓的面積(S)與半徑之間的關(guān)系可表示為S = ?R2 (3)企業(yè)的原材料消耗額(y)與產(chǎn)量(x1)、單位產(chǎn)量消耗(x2)、原材料價(jià)格(x3)之間的關(guān)系可表示為y = x1x2x3,3,當(dāng)一個(gè)或幾
3、個(gè)變量取一定的值時(shí),與之相對(duì)應(yīng)的另一個(gè)變量的值雖然不確定,但它仍然按某一規(guī)律在一定的范圍內(nèi)變化,變量間的這種關(guān)系,稱(chēng)為具有不確定性的相關(guān)關(guān)系。相關(guān)關(guān)系是一種不完全確定的統(tǒng)計(jì)關(guān)系。,(2)相關(guān)關(guān)系,(1)變量間關(guān)系不能用函數(shù)關(guān)系 精確表達(dá)(2)一個(gè)變量的取值不能由另一 個(gè)變量唯一確定(3)當(dāng)變量 x 取某個(gè)值時(shí),變量 y 的取值可能有幾個(gè)(4)各觀測(cè)點(diǎn)分布在直線(xiàn)周?chē)?/p>
4、,第1節(jié) 相關(guān)的概念和種類(lèi),4,相關(guān)關(guān)系的例子,商品的消費(fèi)量(y)與居民收入(x)之間的關(guān)系商品銷(xiāo)售額(y)與廣告費(fèi)支出(x)之間的關(guān)系糧食畝產(chǎn)量(y)與施肥量(x1)、降雨量(x2)、 溫度(x3)之間的關(guān)系收入水平(y)與受教育程度(x)之間的關(guān)系人的身高(y)與人的體重(x)之間的關(guān)系,第1節(jié) 相關(guān)的概念和種類(lèi),2 相關(guān)的種類(lèi),(1)按相關(guān)的程度分,完全相關(guān),不完全相關(guān),不相關(guān),,第1節(jié) 相關(guān)的概念和種類(lèi)
5、,(2)按相關(guān)的形式分,線(xiàn)性相關(guān),非線(xiàn)性相關(guān),,(3)按影響因素的多少分,單相關(guān),復(fù)相關(guān),,(1)按相關(guān)的方向分,正相關(guān),負(fù)相關(guān),,第1節(jié) 相關(guān)的概念和種類(lèi),3 相關(guān)分析的主要內(nèi)容(任務(wù)):,(1) 確定現(xiàn)象之間有無(wú)關(guān)系,(3) 確定相關(guān)關(guān)系的密切程度,(4) 相關(guān)系數(shù)的顯著性檢驗(yàn),(2) 確定相關(guān)關(guān)系的類(lèi)型,(5)對(duì)達(dá)到一定密切程度的相關(guān)關(guān)系建立適當(dāng)?shù)臄?shù)學(xué)模 型,以確定自變量與因變量之間數(shù)量變化的規(guī)律性;(6)測(cè)定數(shù)學(xué)模型的
6、代表性大小并根據(jù)自變量數(shù)值對(duì)因 變量的數(shù)量變化做出具有一定概率保證程度的推算 和預(yù)測(cè)。,廣義的相關(guān)分析還包括回歸分析的內(nèi)容:,第1節(jié) 相關(guān)的概念和種類(lèi),第二節(jié) 直線(xiàn)相關(guān)分析,一 相關(guān)圖表,相關(guān)圖表是相關(guān)分析的重要方法。通過(guò)相關(guān)圖表可以直觀地判斷現(xiàn)象之間呈現(xiàn)的相關(guān)的形態(tài)和方向。,(一) 相關(guān)表,簡(jiǎn)單相關(guān)表:根據(jù)總體單位的原始資料編制的相關(guān)表,分組相關(guān)表,單變量分組相關(guān)表,雙變量分組相關(guān)表,,,有相關(guān)關(guān)系的兩個(gè)變量中,只根
7、據(jù)一個(gè)變量進(jìn)行分組,另一個(gè)變量不進(jìn)行分組,只計(jì)算出次數(shù)和平均數(shù)。,有相關(guān)關(guān)系的兩個(gè)變量中,自變量和因變量都進(jìn)行分組而編制的相關(guān)表。,,,,(二)相關(guān)圖(散點(diǎn)圖),利用直角坐標(biāo)系第一象限,把自變量置于橫軸上,因變量置于縱軸上,再將兩變量相對(duì)應(yīng)的變量值用坐標(biāo)點(diǎn)形式描繪出來(lái)即可。,,第二節(jié) 直線(xiàn)相關(guān)分析,10,400名女大學(xué)身高與體重相關(guān)表,第二節(jié) 直線(xiàn)相關(guān)分析,雙變量分組相關(guān)表,第二節(jié) 直線(xiàn)相關(guān)分析,二 相關(guān)系數(shù)(correlation c
8、oefficient),相關(guān)系數(shù)是指在直線(xiàn)相關(guān)條件下,說(shuō)明兩個(gè)現(xiàn)象之間相關(guān)關(guān)系密切程度的統(tǒng)計(jì)分析指標(biāo)。,(一)相關(guān)系數(shù)的計(jì)算方法:,若相關(guān)系數(shù)是根據(jù)總體全部數(shù)據(jù)計(jì)算的,稱(chēng)為總體相關(guān)系數(shù),記為?。,總體相關(guān)系數(shù)反映總體兩個(gè)變量X和Y的線(xiàn)性相關(guān)程度。 特點(diǎn):對(duì)于特定的總體來(lái)說(shuō),X和Y的數(shù)值是既定的,總體相關(guān)系數(shù)是客觀存在的特定數(shù)值。,,(9.1),協(xié)方差:Covariance;方差:Variance,第二節(jié) 直線(xiàn)相關(guān)分析,,,,,,,
9、,,,,,,,,,,,,,,,,,,,Ⅰ,Ⅱ,Ⅲ,Ⅳ,協(xié)方差的意義,x,y,第二節(jié) 直線(xiàn)相關(guān)分析,若相關(guān)系數(shù)是根據(jù)樣本數(shù)據(jù)計(jì)算的,則稱(chēng)為樣本相關(guān)系數(shù),記為 r,特點(diǎn):樣本相關(guān)系數(shù)是根據(jù)從總體中抽取的隨機(jī)樣本的觀測(cè)值計(jì)算出來(lái)的,是對(duì)總體相關(guān)系數(shù)的估計(jì),它是個(gè)隨機(jī)變量。 容易證明,樣本相關(guān)系數(shù)是總體相關(guān)系數(shù)的一致估計(jì)量 。,該公式是K.皮爾遜提出來(lái)的,故稱(chēng)皮爾遜相關(guān)系數(shù)。,,(9.2),(9.3),第二節(jié) 直線(xiàn)相關(guān)分析,如果定義:,
10、相關(guān)系數(shù)可以表示為:,(9.4),第二節(jié) 直線(xiàn)相關(guān)分析,1.44,4.00,9.61,14.44,25.00,17.21,51.84,64.00,207.54,3844,7396,6400,12100,13225,17424,18225,25600,104214,74.4,172.0,248.0,418.0,575.0,805.2,972.0,1280.0,4544.6,【例9.1】相關(guān)系數(shù)的計(jì)算分析,第二節(jié) 直線(xiàn)相關(guān)分析,根據(jù)計(jì)算結(jié)果
11、可知:,則相關(guān)系數(shù)為:,說(shuō)明產(chǎn)量和生產(chǎn)費(fèi)用之間存在高度正相關(guān)。,第二節(jié) 直線(xiàn)相關(guān)分析,【例9.2】在研究銷(xiāo)售額與廣告費(fèi)的問(wèn)題中,把銷(xiāo)售額記為y,把廣告費(fèi)記為x。根據(jù)收集到的1~13年的樣本數(shù)據(jù)(xi ,yi),i =1,2,…,13,計(jì)算相關(guān)系數(shù)。,銷(xiāo)售額與廣告費(fèi)數(shù)據(jù),用Excel計(jì)算相關(guān)數(shù)據(jù),第二節(jié) 直線(xiàn)相關(guān)分析,解:根據(jù)樣本相關(guān)系數(shù)的計(jì)算公式有,用PEARSON函數(shù)計(jì)算,銷(xiāo)售額與廣告費(fèi)之間的相關(guān)系數(shù)為 0.998940923,第二節(jié)
12、 直線(xiàn)相關(guān)分析,(二)相關(guān)系數(shù)的性質(zhì),(2)相關(guān)系數(shù)的取值范圍在絕對(duì)值的 之間。 其值大小反映兩變量之間相關(guān)的密切程度。,(1)相關(guān)系數(shù)有正負(fù)號(hào),分別表示正相關(guān)和負(fù) 相關(guān)。,(3)相關(guān)系數(shù),表明兩變量完全相關(guān);,表明兩變量完全不相關(guān)。,(4)當(dāng)計(jì)算相關(guān)系數(shù)的原始數(shù)據(jù)較多(如50項(xiàng)以 上)時(shí),認(rèn)為相關(guān)系數(shù)在0.3以下為無(wú)相關(guān)或 微弱相關(guān); 0.
13、3以上為有相關(guān);0.3-0.5為低度 相關(guān);0.5-0.8為顯著(中度)相關(guān);0.8以上 為高度相關(guān)。,第二節(jié) 直線(xiàn)相關(guān)分析,r,|r|=0 不存在線(xiàn)性關(guān)系; |r|=1 完全線(xiàn)性相關(guān)0<|r|<1不同程度線(xiàn)性相關(guān)(0~0.3 微弱;0.3~0.5 低度; 0.5~0.8 顯著(中度);0.8~1 高度),第
14、二節(jié) 直線(xiàn)相關(guān)分析,(三)相關(guān)系數(shù)的缺點(diǎn),相關(guān)系數(shù)接近于1的程度與數(shù)據(jù)組數(shù)n 有關(guān),這樣容易給人一種假象。因?yàn)?,?dāng)n較小時(shí),相關(guān)系數(shù)的絕對(duì)值容易接近于1,當(dāng)n較大時(shí),相關(guān)系數(shù)的絕對(duì)值容易偏小。特別是當(dāng)n=2時(shí),相關(guān)系數(shù)的絕對(duì)值總為1。因此在樣本容量較小時(shí),如果我們僅憑相關(guān)系數(shù)較大就說(shuō)變量x與y之間有密切的關(guān)系,則顯得匆忙。,第二節(jié) 直線(xiàn)相關(guān)分析,(四)用相關(guān)系數(shù)分析相關(guān)關(guān)系時(shí)應(yīng)注意的問(wèn)題,1、x和y都是相互對(duì)稱(chēng)的隨機(jī)變量,rxy=ryx
15、。,2、相關(guān)系數(shù)只反映變量間的線(xiàn)性相關(guān)程度,不能說(shuō)明非線(xiàn)性相關(guān)關(guān)系。,3、相關(guān)系數(shù)只能反映變量間的線(xiàn)性相關(guān)程度,并不能確定變量的因果關(guān)系,也不能說(shuō)明相關(guān)關(guān)系具體接近于哪條直線(xiàn)。,第二節(jié) 直線(xiàn)相關(guān)分析,24,三 相關(guān)系數(shù)的顯著性檢驗(yàn),(一)r 的抽樣分布,(1)r 的抽樣分布隨總體相關(guān)系數(shù)和樣本容量的大小而變化。當(dāng)樣本數(shù)據(jù)來(lái)自正態(tài)總體時(shí),隨著n的增大,r 的抽樣分布趨于正態(tài)分布,尤其是在總體相關(guān)系數(shù)?很小或接近0時(shí),趨于正態(tài)分布的趨勢(shì)非
16、常明顯。而當(dāng)?遠(yuǎn)離0時(shí),除非n非常大,否則r的抽樣分布呈現(xiàn)一定的偏態(tài)。(2)當(dāng)?為較大的正值時(shí),r 呈現(xiàn)左偏分布;當(dāng)?為較小的負(fù)值時(shí),r 呈現(xiàn)右偏分布。只有當(dāng)?接近于0,而樣本容量n很大時(shí),才能認(rèn)為r是接近于正態(tài)分布的隨機(jī)變量。,第二節(jié) 直線(xiàn)相關(guān)分析,(二)檢驗(yàn)的步驟,檢驗(yàn)兩個(gè)變量之間是否存在線(xiàn)性相關(guān)關(guān)系等價(jià)于對(duì)回歸系數(shù) b的檢驗(yàn)采用R.A.Fisher提出的 t 檢驗(yàn)檢驗(yàn)的步驟為:,2. 計(jì)算檢驗(yàn)的統(tǒng)計(jì)量:,3.
17、確定顯著性水平?,根據(jù)顯著性水平?,查t分布表得自由度為(n-2)的臨界值t??? 。,1. 提出假設(shè):H0:? ? ? ;H1: ? ? 0,(9.5),4. 若?t?>t???,表明相關(guān)系數(shù)在統(tǒng)計(jì)上是顯著的,應(yīng)拒絕H0的原假設(shè),即認(rèn)為兩變量之間存在線(xiàn)性相關(guān)。 若?t?<t???,不能拒絕H0。,第二節(jié) 直線(xiàn)相關(guān)分析,(1)提出假設(shè):H0:? ? ? ;H1: ? ? 0(2)計(jì)算檢驗(yàn)的統(tǒng)計(jì)量:,(3)根據(jù)顯著
18、性水平?=0.05,查t分布表得(P.376): t???(n-2)=2.201,【例9.3】,對(duì)前例計(jì)算的相關(guān)系數(shù)進(jìn)行顯著性檢驗(yàn)(??0.05),(4)由于?t?=72.006606>t???(13-2)=2.201,拒絕H0,銷(xiāo)售額與廣告費(fèi)之間的相關(guān)關(guān)系顯著。,第二節(jié) 直線(xiàn)相關(guān)分析,27,第三節(jié) 直線(xiàn)回歸分析,一 回歸分析(Regression)的概念,高爾頓遺傳學(xué)的回歸概念,英國(guó)人類(lèi)學(xué)家 F.
19、Galton首次在《自然遺傳》一書(shū)中,提出并闡明了“相關(guān)”和“相關(guān)系數(shù)”兩個(gè)概念,為相關(guān)論奠定了基礎(chǔ)。其后,他和英國(guó)統(tǒng)計(jì)學(xué)家 Karl Pearson對(duì)上千個(gè)家庭的身高、臂長(zhǎng)、拃長(zhǎng)(伸開(kāi)大拇指與中指兩端的最大長(zhǎng)度)做了測(cè)量,發(fā)現(xiàn):,也即高個(gè)子父代的子代在成年之后的身高平均來(lái)說(shuō)不是更高,而是稍矮于其父代水平,而矮個(gè)子父代的子代的平均身高不是更矮,而是稍高于其父代水平。Galton將這種趨向于種族穩(wěn)定的現(xiàn)象稱(chēng)之“回歸”。,兒子身高(Y,英寸
20、)與父親身高(X,英寸)存在線(xiàn)性關(guān)系:,回歸分析是對(duì)具有相關(guān)關(guān)系的兩個(gè)或兩個(gè)以上變量之間的數(shù)量變化的一般關(guān)系進(jìn)行測(cè)定,確立一個(gè)相應(yīng)的數(shù)學(xué)表達(dá)式(數(shù)學(xué)模型),近似地描述變量間的平均變化關(guān)系,以便從一個(gè)已知量來(lái)推測(cè)另一個(gè)未知量,為估算預(yù)測(cè)提供一個(gè)重要的方法。,回歸的目的(實(shí)質(zhì)):由固定的自變量(independent variable)去估計(jì)因變量(dependent variable)的平均值。,目前,“回歸”已成為表示變量之間某種數(shù)量
21、依存關(guān)系的統(tǒng)計(jì)學(xué)術(shù)語(yǔ),并且衍生出“回歸方程”“回歸系數(shù)”等統(tǒng)計(jì)學(xué)概念。,第三節(jié) 直線(xiàn)回歸分析,二 回歸的種類(lèi),(一)按自變量的個(gè)數(shù)分,一元回歸,多元回歸,(二)按回歸線(xiàn)的形態(tài)分,線(xiàn)性回歸,非線(xiàn)性回歸,,,第三節(jié) 直線(xiàn)回歸分析,回歸模型的類(lèi)型,第三節(jié) 直線(xiàn)回歸分析,31,三 簡(jiǎn)單線(xiàn)性回歸方程,(一)簡(jiǎn)單線(xiàn)性方程式的一般形式,當(dāng)兩變量的增長(zhǎng)比率為常數(shù)時(shí),它們之間就呈現(xiàn)為一種簡(jiǎn)單線(xiàn)性關(guān)系。,(二)簡(jiǎn)單線(xiàn)性回歸方程進(jìn)行回歸分析的前提,所分
22、析的兩個(gè)變量之間必須存在相關(guān)關(guān)系,且相關(guān)程度在顯著相關(guān)以上。,(三)對(duì)兩變量進(jìn)行簡(jiǎn)單線(xiàn)性回歸分析的任務(wù),設(shè)法在分散的、具有線(xiàn)性關(guān)系的相關(guān)點(diǎn)之間配合一條最優(yōu)的直線(xiàn),這條直線(xiàn)就是估計(jì)回歸線(xiàn),它表明兩變量之間具體的變動(dòng)關(guān)系。,第三節(jié) 直線(xiàn)回歸分析,32,配合估計(jì)回歸線(xiàn)的方程稱(chēng)為回歸方程。,方程式為:,回歸系數(shù)b的經(jīng)濟(jì)涵義:,當(dāng)自變量變動(dòng)一個(gè)單位時(shí),因變量的平均變動(dòng)值。,(四)配合直線(xiàn)回歸方程的方法,(9.6),第三節(jié) 直線(xiàn)回歸分析,33,
23、用最小平方法配合回歸直線(xiàn)的基本思想是:,在所有的相關(guān)點(diǎn)中,通過(guò)數(shù)學(xué)方法配合一條較為理想的直線(xiàn),這條直線(xiàn)必須滿(mǎn)足兩點(diǎn):,2、原數(shù)列與回歸線(xiàn)的離差平方和為最小值。,1、原數(shù)列與回歸線(xiàn)的離差之和為零。,配合直線(xiàn)回歸方程的過(guò)程就是求解方程系數(shù)a、b的過(guò)程,求解a、b的方法一般采用最小平方法。,(9.7),(9.8),即,即,第三節(jié) 直線(xiàn)回歸分析,通過(guò)求a、b的一階偏導(dǎo)可得到求解a、b的聯(lián)立方程:,解聯(lián)立方程得到:,(9.9),(9.10),
24、第三節(jié) 直線(xiàn)回歸分析,4544.6,74.4 172.0 248.0 418.0 575.0 805.2 972.0 1280.0,,104214,3844 7396 6400 12100 13225174241822525600,,207.54,1.44 4.00 9.61 14.44 25.00 37.21 51.84 64.00,,880,36.4,∑,62
25、 86 80 110 115 132 135 160,1.2 2.0 3.1 3.8 5.0 6.1 7.2 8.0,1 2 3 4 5 6 7 8,生產(chǎn)費(fèi)用,月產(chǎn)量,序 號(hào),,,,,,,,,,,,,,【例9.4】根據(jù)例9.1資料配合生產(chǎn)費(fèi)用依產(chǎn)量變化的回歸方程:,第三節(jié) 直線(xiàn)回歸分析,則回歸方程為:,回歸系數(shù)b的涵義:
26、月產(chǎn)量每增加1000噸,生產(chǎn)費(fèi)用平均增加12.9萬(wàn)元。,計(jì)算得到:,第三節(jié) 直線(xiàn)回歸分析,【例9.5】根據(jù)例9.2中的數(shù)據(jù),配合銷(xiāo)售額與廣告費(fèi)的回歸方程 根據(jù)a和b的求解公式得,所以銷(xiāo)售額與廣告費(fèi)的回歸方程為,yc = 54.0049 + 0.5258964 x,運(yùn)用INTERCEPT函數(shù) 計(jì)算截距,運(yùn)用SLOPE函數(shù) 計(jì)算斜率,第三節(jié) 直線(xiàn)回歸分析,運(yùn)用INTERCEPT函數(shù) 計(jì)算截距,運(yùn)用SLOPE函數(shù) 計(jì)算斜率,
27、第三節(jié) 直線(xiàn)回歸分析,(五)用Excel進(jìn)行回歸分析,第1步:選擇“工具”下拉菜單第2步:選擇“數(shù)據(jù)分析”選項(xiàng)第3步:在分析工具中選擇“回歸”,然后選擇“確定”第4步:當(dāng)對(duì)話(huà)框出現(xiàn)時(shí) 在“Y值輸入?yún)^(qū)域”設(shè)置框內(nèi)鍵入Y的數(shù)據(jù)區(qū)域 在“X值輸入?yún)^(qū)域”設(shè)置框內(nèi)鍵入X的數(shù)據(jù)區(qū)域 在“置信度”選項(xiàng)中給出所需的數(shù)值 在“輸出選項(xiàng)”
28、中選擇輸出區(qū)域 在“殘差”分析選項(xiàng)中選擇所需的選項(xiàng) ?用Excel進(jìn)行回歸分析,第三節(jié) 直線(xiàn)回歸分析,,,,,,相關(guān)系數(shù)的顯著性檢驗(yàn)-t檢驗(yàn),,Excel的輸出結(jié)果,第三節(jié) 直線(xiàn)回歸分析,系數(shù),R square稱(chēng)為方程的確定系數(shù),0~1之間,越接近1,表明方程的變量對(duì)y的解釋能力越強(qiáng)。對(duì)于回歸方程來(lái)說(shuō),總結(jié)了以下幾個(gè)意義:1.R square可以作為選擇不同模型的標(biāo)準(zhǔn)。如果在
29、擬合數(shù)據(jù)之前,不能確定數(shù)據(jù)到底是什么模型,那么可以對(duì)變量的不同數(shù)學(xué)形式進(jìn)行擬合,然后看R square的大小,R square大的模型,說(shuō)明這個(gè)模型對(duì)數(shù)據(jù)擬合的較好。2.在數(shù)據(jù)的關(guān)系存在非線(xiàn)性可能情況下:(a)不一定R square越大擬合越好,因?yàn)镽 square只是回歸平方和占總平方和的比例。比如,在那四幅著名的圖里面,R square都等于66%,并且都是線(xiàn)性擬合,但是他們的數(shù)據(jù)點(diǎn)完全不同,有些是因?yàn)樘禺惏咐拇嬖?,致使?shù)據(jù)擬
30、合出來(lái)是線(xiàn)性的,而事實(shí)上并非如此。所以,應(yīng)該在擬合之前觀察散點(diǎn)圖,然后去掉特異值.,(b)如果一個(gè)模型的R square很小,不一定代表數(shù)據(jù)之間沒(méi)有關(guān)系,而很有可能是選擇的模型不對(duì),因?yàn)閿?shù)據(jù)之間也許的其他的函數(shù)關(guān)系,比如對(duì)數(shù)關(guān)系或者指數(shù)關(guān)系。這意味著需要對(duì)數(shù)據(jù)作進(jìn)一步的擬合。(當(dāng)然,最好的方法應(yīng)該是在數(shù)據(jù)擬合之前先觀察散點(diǎn)圖)。如果是線(xiàn)性模型,那么R square才是方程擬合優(yōu)度的度量,R square越大,回歸方程擬合數(shù)據(jù)越好,線(xiàn)性關(guān)
31、系越強(qiáng)。,3.當(dāng)自變量個(gè)數(shù)增加時(shí),盡管有的自變量與y的線(xiàn)性關(guān)系不顯著,R square也會(huì)增大。R square受自變量個(gè)數(shù)與樣本規(guī)模影響。對(duì)于這點(diǎn),采用Adjusted R square進(jìn)行調(diào)整。4.當(dāng)想確定方程中的每一個(gè)自變量對(duì)y的邊際解釋能力時(shí),應(yīng)該確定每個(gè)自變量的偏確定系數(shù)(partial coefficient of determination)。注意,偏確定系數(shù)反映的是新加入回歸的變量所解釋的百分比,而這百分比是以前一步
32、回歸所未能解釋的部分為整體,而不是以y的總變化為整體。也就是說(shuō),x1與x2共同解釋的y的貢獻(xiàn),已包含在x1解釋的y的貢獻(xiàn)里面。偏確定系數(shù)的意義是,用于判斷自變量的重要性。但是,在遇到虛擬變量時(shí),計(jì)算這個(gè)的意義不大。,顯著性水平 顯著性水平是估計(jì)總體參數(shù)落在某一區(qū)間內(nèi),可能犯錯(cuò)誤的概率為顯著性水平,用α表示。顯著性是對(duì)差異的程度而言的,程度不同說(shuō)明引起變動(dòng)的原因也有不同:一類(lèi)是條件差異,一類(lèi)是隨機(jī)差異。它是在進(jìn)行假設(shè)檢驗(yàn)時(shí)事先
33、確定一個(gè)可允許的作為判斷界限的小概率標(biāo)準(zhǔn)。,估計(jì)總體參數(shù)落在某一區(qū)間內(nèi),可能犯錯(cuò)誤的概率為顯著性水平,用α表示, 1-α 為置信度或置信水平,其表明了區(qū)間估計(jì)的可靠性。,Excel輸出的部分回歸結(jié)果,第三節(jié) 直線(xiàn)回歸分析,要求:分析兩變量相關(guān)密切程度,若為顯著相關(guān)以上, 則對(duì)兩變量進(jìn)行回歸分析。,課堂練習(xí):某地區(qū)人均年收入與耐用消費(fèi)品銷(xiāo)售額 資料如下:,第三節(jié)
34、直線(xiàn)回歸分析,答案:相關(guān)系數(shù) r = 0.98 b = 0.24 a = -1.13 yc = -1.13+0.24x,回歸系數(shù)b的涵義:人均年收入每增加一元,耐用消費(fèi)品銷(xiāo)售額平均增加0.24萬(wàn)元。,第三節(jié) 直線(xiàn)回歸分析,四 回歸系數(shù)與相關(guān)系數(shù)的關(guān)系,因?yàn)椋?所以:,即:,(9.11),(9.12),r和b 都能判斷現(xiàn)象之間相關(guān)方
35、向,而且是一致的,即當(dāng)r(b)>0正相關(guān),r(b)<0時(shí),負(fù)相關(guān);但 r 還可以判斷相關(guān)程度,b 不能判斷相關(guān)程度。,第三節(jié) 直線(xiàn)回歸分析,五 回歸分析與相關(guān)分析的關(guān)系,1、回歸分析必須區(qū)分自變量和因變量,而相關(guān)分析不必區(qū)分。,2、回歸分析的兩個(gè)變量一個(gè)是自變量,一個(gè)是因變量,通過(guò)給定自變量的值來(lái)推算因變量的可能值;而相關(guān)分析的兩個(gè)變量都是隨機(jī)變量。,3、回歸分析中對(duì)于因果關(guān)系不甚明確的兩個(gè)變量,可以建立兩個(gè)回歸方程
36、;而相關(guān)分析只能計(jì)算出一個(gè)相關(guān)系數(shù)。,4、一種回歸方程只能做一種推算,即只能給出自變量的值來(lái)推算因變量的值,不能逆推。,1、相關(guān)分析是回歸分析的基礎(chǔ)和前提;,(一)區(qū)別,(二)聯(lián)系,2、相關(guān)分析需要回歸分析來(lái)表明現(xiàn)象數(shù)量關(guān)系的具體形式,回歸分析是相關(guān)性分析的繼續(xù)和拓展。,第三節(jié) 直線(xiàn)回歸分析,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,一 估計(jì)標(biāo)準(zhǔn)誤的涵義,根據(jù)直線(xiàn)回歸方程,在知道了自變量的數(shù)值情況下可以推算出因變量的數(shù)值,但是,推算出來(lái)的因變量的數(shù)值不
37、是精確的值,它與實(shí)際值之間有差異。,估計(jì)標(biāo)準(zhǔn)誤差就是用來(lái)說(shuō)明回歸方程推算結(jié)果的準(zhǔn)確程度的統(tǒng)計(jì)分析指標(biāo),或者說(shuō)是反映回歸直線(xiàn)代表性大小的統(tǒng)計(jì)分析指標(biāo)。,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,二 估計(jì)標(biāo)準(zhǔn)誤的計(jì)算公式,該式稱(chēng)為簡(jiǎn)化公式。,(一)根據(jù)因變量實(shí)際值和估計(jì)值的離差計(jì)算,(二)根據(jù)a、b兩個(gè)參數(shù)值計(jì)算,統(tǒng)計(jì)上定義剩余離差平方和 除以自由度n-2所得商的平方根為估計(jì)標(biāo)準(zhǔn)誤。,(9.13),(9.14),,5
38、3,三 判定系數(shù) r2 –擬合優(yōu)度的度量,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,回歸直線(xiàn)在一定程度上描述了自變量與因變量之間的關(guān)系,利用這一方程,可根據(jù)自變量的取值來(lái)估計(jì)或預(yù)測(cè)因變量的取值。但估計(jì)或預(yù)測(cè)的精度如何,取決于回歸直線(xiàn)對(duì)觀察數(shù)據(jù)的擬合優(yōu)度。,我們把樣本觀察值數(shù)據(jù)聚集在樣本回歸直線(xiàn)周?chē)木o密程度稱(chēng)為回歸直線(xiàn)對(duì)數(shù)據(jù)的擬合優(yōu)度,通常用判定系數(shù)度量。,各觀察值數(shù)據(jù)越是緊密地聚集在這條回歸直線(xiàn)周?chē)f(shuō)明直線(xiàn)對(duì)觀察數(shù)據(jù)的擬合優(yōu)度越好,反之則越差。如果各
39、觀察值數(shù)據(jù)的散點(diǎn)都落在這條回歸直線(xiàn)上,那么這條直線(xiàn)就是對(duì)數(shù)據(jù)的完全擬合,此時(shí)用來(lái)估計(jì)是沒(méi)有誤差的。,另一個(gè)是隨機(jī)因素的影響,即除自變量 x 對(duì) y 的影響外,其他隨機(jī)因素所引起的 y 的變動(dòng),這種變動(dòng)可以由 表示,稱(chēng)之為剩余變差。三者關(guān)系是:,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,根據(jù)方差分析的一般原理:因變量 y 的實(shí)際觀察值yi 總是圍繞其平均數(shù) 而上下波動(dòng),所以 y 的變動(dòng)可以由
40、 來(lái)反映,稱(chēng)之為總變差。引起總變差的原因有兩方面:,一個(gè)是由于自變量 x 的取值不同,使得與 x 有直線(xiàn)相關(guān)關(guān)系的 y 值不同。在回歸方程yc=a+bx中,yc為 y 的估計(jì)值,x 通過(guò)方程對(duì) y 產(chǎn)生影響,其影響程度可由 來(lái)表示 ,稱(chēng)其為回歸變差。,(9.15),(一)總平方和的分解,判定系數(shù)建立在對(duì)總離差平方和進(jìn)行分解的基礎(chǔ)上。,55,?,?,?,總變差(離差平方和)的分解,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差
41、,離差分解圖,,,x,y,{,},?,(x1 , y1),?,?,?,,,(x2 , y2),(xn , yn),?,?,?,,,?,?,?,?,?,兩端平方后求和有,從圖上看有,SST = SSR + SSE,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,即,(ei稱(chēng)為殘差),(9.16),(9.17),(二)三個(gè)平方和的意義,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,總平方和(SST- Total Square Sum )反映因變量的 n 個(gè)觀察值與其均值的總離差。
42、回歸平方和(SSR- Regression Square Sum )反映自變量 x 的變化對(duì)因變量 y 取值變化的影響,或者說(shuō),是由于 x 與 y 之間的線(xiàn)性關(guān)系引起的 y 的取值變化,也稱(chēng)為可解釋的平方和。殘差平方和(SSE- Error Square Sum )反映除 x 以外的其他因素對(duì) y 取值的影響,也稱(chēng)為不可解釋的平方和或剩余平方和。,58,TSS:Total Square Sum / 總離差平方和RSS:Reg
43、ression Square Sum / 回歸平方和Residual Square Sum / 殘差平方和ESS:Error Square Sum / 誤差平方和(殘差平方和)Explain Square Sum / 解釋平方和(回歸平方和),注意英文縮寫(xiě)的含義,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,59,【例9.6】根據(jù)例9.2計(jì)算銷(xiāo)售額與廣告費(fèi)回歸的判定系數(shù),并解釋其意義。,判定系數(shù)的實(shí)際意義是:在銷(xiāo)售額取值的變差中,有9
44、9.788%可以由銷(xiāo)售額與廣告費(fèi)之間的線(xiàn)性關(guān)系來(lái)解釋?zhuān)蛘哒f(shuō),在銷(xiāo)售額取值的變動(dòng)中,有99.788%是由廣告費(fèi)所決定的。可見(jiàn)銷(xiāo)售額與廣告費(fèi)之間有較強(qiáng)的線(xiàn)性關(guān)系。,(三)判定系數(shù) r2的計(jì)算,,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,Excel的輸出結(jié)果,相關(guān)系數(shù),判定系數(shù),調(diào)整后的相關(guān)系數(shù),,,,在多元回歸時(shí)使用,有統(tǒng)計(jì)學(xué)家認(rèn)為,在多元回歸模型中,增加預(yù)測(cè)變量,必然會(huì)使R Square增大,故必須加以調(diào)整。,,估計(jì)標(biāo)準(zhǔn)誤Sy,,,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差
45、,(四)判定系數(shù) r2的性質(zhì),回歸平方和占總離差平方和的比例。,反映回歸直線(xiàn)的擬合程度。 r2越大,擬合優(yōu)度越大,自變量對(duì)因變量的解釋程度越高,自變量引起的變動(dòng)占總變動(dòng)的百分比高。觀察點(diǎn)在回歸直線(xiàn)附近越密集。取值范圍在 [ 0 , 1 ] 之間。r2 ?1,說(shuō)明回歸方程擬合的越好;r2?0,說(shuō)明回歸方程擬合的越差。判定系數(shù)等于相關(guān)系數(shù)的平方,即r2=(r)2,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,(9.18),第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,由此可以推
46、導(dǎo)出:,因?yàn)椋?四 相關(guān)系數(shù)與估計(jì)標(biāo)準(zhǔn)誤差的關(guān)系,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,因?yàn)椋?所以:,,第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,從這個(gè)式子可以看出,如果兩個(gè)變量之間的直線(xiàn)相關(guān)關(guān)系十分密切,相關(guān)系數(shù)的絕對(duì)值就接近于1,這時(shí)估計(jì)標(biāo)準(zhǔn)誤差的數(shù)值越接近于0,說(shuō)明回歸方程的代表性越高。,所以相關(guān)系數(shù)與估計(jì)標(biāo)準(zhǔn)誤差的關(guān)系為:,(9.19),第四節(jié) 估計(jì)標(biāo)準(zhǔn)誤差,或者:,從這個(gè)式子可以看出,如果Syx越小,殘差平方和占總離差平方和的比例也就越小,從而相關(guān)系數(shù)r
47、的值就會(huì)越大,即一個(gè)代表性很好的方程,其變量之間的相關(guān)關(guān)系也一定很高。,因?yàn)?,所以,(9.20),由式(9.19)有:,在簡(jiǎn)單線(xiàn)性回歸中,因?yàn)榕卸ㄏ禂?shù)等于相關(guān)系數(shù)的平方,即r2=(r)2,一 線(xiàn)性關(guān)系的檢驗(yàn),1、提出假設(shè),2、計(jì)算檢驗(yàn)統(tǒng)計(jì)量F,3、確定顯著性水平?,并根據(jù)分子自由度1和分母自由度n-2找出臨界值F ?,H0:b=0 線(xiàn)性關(guān)系不顯著,4、作出決策:若F>F ?拒絕H0;若F<F ?不能拒絕H0,第五節(jié)
48、 回歸方程的檢驗(yàn)與預(yù)測(cè),SST、SSR、SSE的自由度,模型中樣本值可以自由變動(dòng)的個(gè)數(shù),稱(chēng)為自由度。自由度 = 樣本個(gè)數(shù)-樣本數(shù)據(jù)受約束條件(方程)的個(gè)數(shù)。,第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測(cè),1、提出假設(shè)H0: b=0,銷(xiāo)售額和廣告費(fèi)之間的線(xiàn)性關(guān)系不顯著2、計(jì)算檢驗(yàn)統(tǒng)計(jì)量F,3、確定顯著性水平?=0.05,并根據(jù)分子自由度1和分母自由度13-2找出臨界值F ?=0.05=4.75;p.380,4、作出決策:因?yàn)镕>F ?拒絕
49、H0,所以銷(xiāo)售額和廣告費(fèi)之間線(xiàn)性關(guān)系顯著。,【例9.7】根據(jù)例9.2資料對(duì)建立的回歸方程進(jìn)行檢驗(yàn),第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測(cè),Excel 輸出的方差分析表(續(xù)前例),平方和,均方=平方和/自由度,,,F=5184.95?F ?=0.5=4.75,拒絕H0,線(xiàn)性關(guān)系顯著,,,第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測(cè),二 回歸系數(shù)的檢驗(yàn),在一元線(xiàn)性回歸中,等價(jià)于線(xiàn)性關(guān)系的顯著性檢驗(yàn)。略。,檢驗(yàn) x 與 y 之間是否具有線(xiàn)性關(guān)系,或者說(shuō),檢
50、驗(yàn)自變量 x 對(duì)因變量 y 的影響是否顯著。,理論基礎(chǔ)是回歸系數(shù)b的抽樣分布。,第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測(cè),三 利用回歸方程進(jìn)行估計(jì)和預(yù)測(cè)(點(diǎn)估計(jì)),2. 點(diǎn)估計(jì)值有y 的平均值的點(diǎn)估計(jì)y 的個(gè)別值的點(diǎn)估計(jì)3. 在點(diǎn)估計(jì)條件下,平均值的點(diǎn)估計(jì)和個(gè)別值的點(diǎn)估計(jì)是一樣的,但在區(qū)間估計(jì)中則不同,對(duì)于自變量 x 的一個(gè)給定值x0 ,根據(jù)回歸方程得到因變量 y 的一個(gè)估計(jì)值y0,第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測(cè),(一)y 的平均
51、值的點(diǎn)估計(jì),利用估計(jì)的回歸方程,對(duì)于自變量 x 的一個(gè)給定值 x0 ,求出因變量 y 的平均值的一個(gè)估計(jì)值E(y0) ,就是平均值的點(diǎn)估計(jì)。,在前面的例子中,假如我們要估計(jì)廣告費(fèi)為2000時(shí),所有年份銷(xiāo)售額的平均值,就是平均值的點(diǎn)估計(jì)。根據(jù)估計(jì)的回歸方程得:,第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測(cè),(二)y 的個(gè)別值的點(diǎn)估計(jì),利用估計(jì)的回歸方程,對(duì)于自變量 x 的一個(gè)給定值 x0 ,求出因變量 y 的一個(gè)個(gè)別值的估計(jì)值y0 ,就是個(gè)別值的點(diǎn)估計(jì)
52、,2. 比如,如果我們只是想知道第10年廣告費(fèi)為1250.7時(shí)的平均銷(xiāo)售額是多少,則屬于個(gè)別值的點(diǎn)估計(jì)。根據(jù)估計(jì)的回歸方程得,第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測(cè),第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測(cè),75,第五節(jié) 回歸方程的檢驗(yàn)與預(yù)測(cè),76,在本例中,影響人均消費(fèi)性支出的因素,除了居民人均可支配收入之外,還可能有消費(fèi)品的價(jià)格水平、銀行存款利率、消費(fèi)者的偏好,政府的政策,需求者對(duì)未來(lái)的預(yù)期等等多種因素。我們這里僅分析居民人均可支配收入對(duì)人均消費(fèi)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 應(yīng)用統(tǒng)計(jì)學(xué)--第8章-相關(guān)分析與回歸分析
- 統(tǒng)計(jì)學(xué)相關(guān)與回歸分析
- 應(yīng)用統(tǒng)計(jì)學(xué)---第9章-時(shí)間序列分析
- 統(tǒng)計(jì)學(xué)--第九章直線(xiàn)回歸與相關(guān)
- 8-應(yīng)用統(tǒng)計(jì)學(xué)(教案)相關(guān)與回歸分析
- 統(tǒng)計(jì)學(xué)第1章
- 管理統(tǒng)計(jì)學(xué)第11章-一元線(xiàn)性回歸
- 醫(yī)學(xué)統(tǒng)計(jì)學(xué)一元相關(guān)與回歸
- 統(tǒng)計(jì)學(xué)a第8章-統(tǒng)計(jì)指數(shù)
- 大學(xué)統(tǒng)計(jì)學(xué)-ch8相關(guān)與回歸分析
- 統(tǒng)計(jì)學(xué)第4章
- 第9章 回歸分析
- 應(yīng)用統(tǒng)計(jì)學(xué)第12章
- 第01章管理統(tǒng)計(jì)學(xué)
- 統(tǒng)計(jì)學(xué)第3章練習(xí)
- 統(tǒng)計(jì)學(xué)第1.2章--習(xí)題
- 管理統(tǒng)計(jì)學(xué)-現(xiàn)代回歸分析方法
- [學(xué)習(xí)]統(tǒng)計(jì)學(xué)教學(xué)資料派斯相關(guān)與回歸幻燈片-7章
- 統(tǒng)計(jì)學(xué)【第5章概率】
- 醫(yī)學(xué)統(tǒng)計(jì)學(xué)相關(guān)分析
評(píng)論
0/150
提交評(píng)論