中國醫(yī)科大學醫(yī)學統(tǒng)計學--直線回歸分析_第1頁
已閱讀1頁,還剩59頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第十四章 直線回歸分析 上一章我們學習了對每個研究對象同時觀察兩個指標 的成對數據進行關聯(lián)性分析方法。本章將討論成對觀 察數據中變量間的數量依存關系。 “回歸”一詞最早由Golton在一項有關父親與兒子身高 的研究中提出。后來人們借用“回歸”這個詞來描述通 過自變量的數值預測反應變量的平均水平。 為了通過可測或易測的變量對未知或難測或不可測變 量的狀態(tài)進行估計,可以借助于回歸

2、分析。,,,,為了研究父親與成年兒子身高之間的關系,卡爾.皮爾遜測量了1078對父子的身高。把1078對數字表示在坐標上,如圖。例如兒子的身高與父親的身高有著某種依存關系,可以用回歸分析的方法去研究這種關系,即把兩個變量間的數量依存關系用函數形式表示出來,用一個或多個變量去推測另一個變量的估計值和波動范圍,這就是回歸分析。,例如,我們可以用身高、體重、肺活量的這些容易測 量的指標來估計心室輸出量、體循環(huán)總血量等相對難

3、 測的指標。 我們把被估計或預測的變量稱為因變量(dependent variable),或稱反應變量(response variable),常用 y表示; y 所依存的變量稱為自變量(independent variable),或稱解釋變量(explanatory variable),或稱預測因子(predictor),常用x表示。,第一節(jié) 直線回歸方程的建立 一、直線回歸的概念 本章重點介紹兩個連續(xù)性

4、變量之間的線性依存關系的統(tǒng)計方法,簡稱線性回歸(linear regression)。 例14.1 某研究欲探討男性腰圍與腹腔內脂肪面積的關系,對20名男性志愿受試者測量其腰圍(cm),并采用磁共振成像法測量其腹腔內脂肪面積(cm2),結果如表14.1所示。試建立腹腔內脂肪面積( y )和腰圍( x )的直線回歸方程。,表 20名男性志愿受試者腰圍和腹腔內脂肪面積的測量值,為直觀理解男性腰圍與腹腔內脂肪面積的關系,以腰圍

5、為橫軸,腹腔內脂肪面積為縱軸,描出20對數據散點圖如圖14.1。,腰圍 (cm),圖14.1 兩變量直線回歸關系散點圖,腹腔內脂肪面積 (cm2),如上圖所示,可見散點大致呈直線趨勢。 即假設有一條潛在的直線可用來刻畫兩變量之間的關系,這樣的直線稱為回歸直線。 通常用 來表示回歸直線上各點的縱坐標,其數值是當 x 取某一值時因變量 y 的總體均數的估計值。,在數學上,描述因變量(y)依賴于另一自變量(x)的變化而變

6、化的方程稱為直線回歸方程,也稱為直線回歸模型,表述為: 其中, y為個體的因變量值,x為其自變量值,?為回歸直線的截距參數,?為回歸直線的斜率參數,又稱回歸系數。,通常情況下,研究者只能獲取一定數量的樣本數據,用該樣本數據建立的有關 y 依 x 變化的線性表達式稱為回歸方程,記為:,,直線回歸參數的含義,:回歸直線在軸上的截距。 >0,表示直線與縱軸的交點在原點的上方; 0,表示 y 隨 x 增大而增

7、大; <0,表示 y 隨 x 增大而減小; =0,表示直線與軸平行,即 y 與 x 無直線關系。,,,,,,,,,,,a>0,a=0,a<0,,b的統(tǒng)計學意義,x增(減)一個單位,y 平均改變b個單位。說明存在回歸關系的兩變量間依存變化的數量關系。,二、回歸方程的估計(一) 回歸方程估計的最小二乘原則參數α和β一般只能通過用樣本數據來估計。當x取值為xi時,y的平均值的估計值 應為

8、 而實際觀察值是yi。兩者之差為殘差,即:其中,(xi, yi),i=1, 2, ???, n為已知的樣本數據。,,,,,根據數學上的最小二乘法原理,導出 a 和 b 的算式如下:,的意義,,殘差絕對值: 實測點到直線的縱向距離。,回歸直線的有關性質,直線通過點 各實測點到該回歸線的縱向距離平方和較到其它任何直線者為小。,(二) 回歸系數的估計方法 例 現以例14.1資料說明建立直線回歸方程的具

9、體步驟。 1. 繪制兩變量間的散點圖,如圖14.1所示,觀察到二者 存在直線趨勢,故可進行直線回歸分析。 2. 由樣本數據計算如下統(tǒng)計量,,3. 求回歸系數b。,,4. 求回歸截距α。5. 最小二乘原則下的回歸方程。,,第二節(jié) 直線回歸的統(tǒng)計推斷 一、總體回歸系數β的假設檢驗 在簡單回歸模型中,參數β的意義是: 若自變量x增加一個單位,反應變量y的平均值便增

10、加β。如果β=0,說明y與x之間并不存在線性關系;反之,β≠0,說明y與x之間存在線性關系。 從β=0的總體中抽樣,計算出的樣本回歸系數 b 很可能不為零。所以需對樣本回歸系數 b 進行假設檢驗。,例 試對例14.1資料的樣本回歸方程進行假設檢驗。 Ⅰ. 建立假設 H0:β=0 H1:β≠0 Ⅱ. 確定檢驗水準 α=0.05 Ⅲ

11、. 計算統(tǒng)計量,(一) 方差分析(1) lyy的分析。 如圖 P點的縱坐標被回歸直線與均數 截成三個線段:第一段 ,表示P點與回歸直線的縱向距離,為實際值y與估計值 之差,即殘差。第二段 ,即估計值 與均數 之差,它與回歸系數的大小有關。?b ?值越大, 的差值也越大,反之亦然。當b=0時, 亦為零,則

12、 ,也就是回歸直線并不能使殘差減少。,,,,,,,應變量 y 的平方和劃分示意,x,P (x, y),y,,,,,,,,,,,,,第三段 ,是因變量 y 的均數。上述三個線段的代數和為:移項 這里P點是散點圖中任取的一點,若將全部點子都按上法處理,并將等式兩端平方后再求和,則有,,,,,,,,,,,上式用符號表示為:SS總= SS回+SS殘式中SS總,即 ,為y的離

13、均差平方和lyy,又稱總平方和,說明未考慮x與y的回歸關系時y的變異。SS回,即 ,它反映在y的總變異中由于x與y的直線關系而使y變異減少的部分,也就是在總平方和中可以用x解釋的部分。SS回越大,說明回歸效果越好。SS殘,即 ,為殘差平方和,它反映x對y的線性影響之外的一切因素對y的變異的影響,也就是總平,,,,,,,,,,,,方和中無法用x解釋的部分。在散點圖中,各實測點與回歸

14、直線越近, 也就越小,說明直線回歸的殘差越小。上述三個平方和各自的自由度?及相互關系如下:?總=?回+?殘?總=n-1,?回=1,?殘=n-2在H0為β=0的假設下,統(tǒng)計量F服從自由度為?回、?殘的F分布。,,,,,,,,,,,,,,,,,,,,,,SS殘=SS總-SS回,因為SS總= SS回+SS殘 所以SS殘=SS總-SS回 =

15、7293.650-4235.086 =3058.564,,,,,,,,,,(2) 方差分析這里的方差分析的基本思想是:將SS總分解為SS回與 SS殘兩個部分,然后按下式計算F統(tǒng)計量。式中MS回為回歸均方,MS殘為殘差均方,?回為直線回歸的自由度,?殘為殘差變異的自由度。求得F值后,查F界值表,按所取檢驗水準?作出推斷結論。,,,,,,,,,,,,,,上面已算得SS總,SS回,SS殘列

16、方差分析表,如下表:表 直線回歸的方差分析表,,,,,,,,,,,,,,現?1=1,?2=18,查F界值表,得P<0.01,按?=0.05水準拒絕H0,接受H1,差異有統(tǒng)計學意義,故可認為腹腔內脂肪面積與腰圍之間存在直線回歸關系,總體回歸系數不等于零。,,,,,,,,,,,,,,(二) t 檢驗 這里t 檢驗的基本思想與定量變量中樣本均數與總體均數比較的t 檢驗類似,統(tǒng)計量t 計算如下式:,,Sb為樣本回歸系數b的標

17、準誤,Sy?x為回歸殘差的標準誤。求得t值后查t界值表得到P值,按?水準作出推斷結論。,Ⅳ. 確定概率P值 v=n-2=20-2=18,tb=4.9924,查 t 界值表, 得p<0.001。,,Ⅴ. 下結論 因為p<0.01,按?=0.05水準,拒絕H0,接受H1, 差異有統(tǒng)計學意義。即故可認為腹腔內脂肪面積

18、 與腰圍之間存在直線回歸關系,總體回歸系數不 等于零。,,對于同一資料,對總體回歸系數?的假設檢驗與總體相關系數?的假設檢驗等價,并且檢驗統(tǒng)計量值具有如下關系:,,二、總體回歸系數β的置信區(qū)間 類似于總體均數的置信區(qū)間,參數β的(1-α)的置信區(qū)間為,,,,例14.4 試估計例14.1資料的總體回歸系數?的95%置信區(qū)間。,三、決定系數 回歸平方和與總離均差平方和之比稱為決定系數,即

19、為R。 R2之值在0到1之間,且無單位。直觀地表示R2是回歸平方和在總平方和中所占的比例,它反映了回歸貢獻的相對程度,即在應變量Y的總變異中回歸關系所能解釋的比例。(本例為R2=0.581) 在實際應用中,通過決定系數來反映回歸的實際效果。,,第三節(jié) 直線回歸分析的應用利用回歸方程進行統(tǒng)計預測是回歸分析最重要的應用。所謂預測就是將預報因子(自變量x)代入回歸方程對預報變量進行估計。,,(一) y 的總體均數的

20、置信區(qū)間給定x=xP 時,yP的總體均數 的點估計為:其標準誤為:,,,,的(1-?)的置信區(qū)間為:容易知道,當 時標準誤 最小,所以在均 數 點處置信帶寬度最小,越遠離均數點,置信帶寬度越大。(1-?)的置信帶的意義是:在滿足線性回歸的假設條件下,可以認為真實的回歸直線落在兩條弧形曲線所形成的區(qū)帶內,其置信度為1-?。,,,(二) 個

21、體y值的預測區(qū)間總體中,當xP為某一固定值時,個體y值圍繞著對應與xP值的 波動。其方差為:,,,所以,個體Y值的標準差按下式計算:個體Y值的預測區(qū)間為:可見,在相同置信度下,個體值預測帶的曲線要比回歸線置信帶的曲線離回歸線更遠。,,,,直線回歸分析需注意的問題,回歸分析前應繪制散點圖(必需有直線趨勢時,才適宜作直線回歸分析。應注意資料有無離群點(outlier)及離群點的處理。,,模型假設條件的考察(殘差圖)

22、,,結果的解釋及正確應用 反映自變量對應變量數量上影響大小的是回歸系數 ,而非P值。 內插與外推,直線回歸與相關的區(qū)別和聯(lián)系,區(qū)別 資料要求不同應用情況不同聯(lián)系,直線回歸與相關的區(qū)別,資料要求不同回歸要求因變量y服從正態(tài)分布;y是可以精確測量和嚴格控制的變量,稱為Ⅰ型回歸。相關要求兩個變量x、y服從雙變量正態(tài)分布,稱為Ⅱ型回歸。應用情況不同說明兩變量間依存變化的數量關系用回歸,說明變量間的

23、相關關系用相關。,直線回歸與相關的聯(lián)系,方向一致,即r與b正負號一致r和b假設檢驗等價用回歸解釋相關,,應用直線回歸應注意的問題,回歸分析要有實際意義。在進行直線回歸分析前,應繪制散點圖。考慮建立線性回歸模型的基本假定。直線回歸方程應用與圖示應以自變量的取值范圍為限。兩變量間的直線關系不一定是因果關系。,給定X時,Y是正態(tài)分布、等方差示意圖,二、回歸模型的適用條件 線性回歸模型的適用條件如下: (1)

24、因變量Y與自變量X呈線性關系。 線性指反應變量Y的總體平均值與自變量X呈線性 關系。 如果發(fā)現數據違背該線性的假定,可尋求最適合 客觀實際的非線性模型。 (2) 每個個體觀察值之間互相獨立。,(3) 在一定范圍內,任意給定X值,對應的隨機變量Y都 服從正態(tài)分布。 如果數據不滿足正態(tài)性假設首先考慮對原始數據進

25、 行數據變換,使其正態(tài)化后進行線性模型擬合與分 析。(4) 在一定范圍內(自變量X取值范圍內),不同的X值對 應的隨機變量Y都具有相同的方差。 如果數據不滿足等方差性假設,可試用變量變換使 其方差齊性后再進行回歸分析,或者采用加權回歸 的方法。,,,圖 美國肺癌的監(jiān)測數據年及美國煙草消耗量的數據(American Cancer Society 2005),,,,,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論