版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、第十五章 多元線性回歸分析,(Multiple Linear Regression),講述內(nèi)容第一節(jié) 多元線性回歸第二節(jié) 自變量選擇方法第三節(jié) 多元線性回歸的應(yīng)用 及其注意事項,,人的體重與身高、胸圍血壓值與年齡、性別、勞動強度、飲食習(xí)慣、吸煙狀況、家族史糖尿病人的血糖與胰島素、糖化血紅蛋白、血清總膽固醇、甘油三脂射頻治療儀定向治療腦腫瘤過程中,腦皮質(zhì)的毀損半徑與輻射的溫度、與照射的時間,例 子,目的:作
2、出以多個自變量估計應(yīng)變量的多元線性回歸方程。資料:應(yīng)變量為定量指標(biāo),一定是隨機的;自變量全部或大部分為定量指標(biāo),可以是隨機變動的,也可以是人為選定的,若有少量定性或等級指標(biāo)需作轉(zhuǎn)換。用途:解釋和預(yù)報。更精確,變量:應(yīng)變量 1 個,自變量m 個,共 m+1 個。樣本含量:n數(shù)據(jù)格式見表15-1回歸模型一般形式:,一、多元線性回歸模型,表15-1 多元回歸分析數(shù)據(jù)格式,條件,,兩自變量與應(yīng)變量的散點圖,,一般步驟,,,,建立回歸
3、方程,(2)檢驗并評價回歸方程及各自變量的作用大小,,,二、多元線性回歸方程的建立,例15-1 27名糖尿病人的血清總膽固醇、甘油三脂、空腹胰島素、糖化血紅蛋白、空腹血糖的測量值列于表15-2中,試建立血糖與其它幾項指標(biāo)關(guān)系的多元線性回歸方程。,表15-2 27名糖尿病人的血糖及有關(guān)變量的測量結(jié)果,采用 最小二乘法建立多元線性回歸方程,即尋找適宜的系數(shù)b0,b1,b2,…,使得因變量觀測值yi與其回歸估計值 之間殘差平
4、方和最小。,,,,求偏導(dǎo)數(shù)(一階),,,,原 理最小二乘法,統(tǒng)計軟件包,最小,三、假設(shè)檢驗及其評價,,,1. 方差分析法:,(一)對回歸方程,,方差分析法可將回歸方程中所有自變量X1,X2,…Xm,,作為一個整體來檢驗他們與應(yīng)變量Y之間是否具有線性關(guān)系,并對回歸方程的預(yù)測或解釋能力做出綜合評價。,表15-4 例15-1的方差分析表,表15-3 多元線性回歸方差分析表,SPSS軟件輸出結(jié)果Analysis of Var
5、iance,,2. 決定系數(shù)R 2:,3.復(fù)相關(guān)系數(shù),,可用來度量應(yīng)變量 與多個自變量間的線性相關(guān)程度,亦即觀察值 與估計值 之間的相關(guān)程度。,Y,,Y,,計算公式:,,本例,,若,m,=1,自變量,則有,,,r,為簡單相關(guān)系數(shù)。,,(二)對各自變量的假設(shè)檢驗與評價 指明方程中的每一個自變量對Y的影響,1. 偏回歸平方和,在其它自變量存在于回歸方程中的條件下,考察某一自變量Xj對應(yīng)變量Y的回歸效應(yīng),,表1
6、5-5 對例15-1數(shù)據(jù)作回歸分析的部分中間結(jié)果,各自變量的偏回歸平方和可以通過擬合包含不同自變量的回歸方程計算得到,表15-5給出了例15-1數(shù)據(jù)分析的部分中間結(jié)果。,結(jié)果,2. t 檢驗法 是一種與偏回歸平方和檢驗完全等價的一種方法。計算公式為,,結(jié) 果,結(jié) 論,對于同一資料,不同自變量的t值間可以相互比較,t的絕對值越大,說明該自變量對Y的回歸所起的作用越大。,3.標(biāo)準(zhǔn)化回歸系數(shù) 自變量取值的單位及其
7、離散程度是不同的,因此量綱不同的各回歸系數(shù)之間不能直接比較大小,可對變量進(jìn)行標(biāo)準(zhǔn)化變換,然后擬合回歸方程,這樣獲得的回歸系數(shù)稱為標(biāo)準(zhǔn)化回歸系數(shù)。(可說明各自變量相對貢獻(xiàn)大?。?變量標(biāo)準(zhǔn)化是將原始數(shù)據(jù)減去相應(yīng)變量的均數(shù),然后再除以該變量的標(biāo)準(zhǔn)差。,,,計算得到的回歸方程稱作標(biāo)準(zhǔn)化回歸方程,相應(yīng)的回歸系數(shù)即為標(biāo)準(zhǔn)化回歸系數(shù)。,,注意: 一般回歸系數(shù)有單位,用來解釋各自變量對應(yīng)變量的影響,表示在其它自變量保持不變時
8、, 增加或減少一個單位時Y的平均變化量 。不能用各 來比較各 對 的影響大小。 標(biāo)準(zhǔn)化回歸系數(shù)無單位,用來比較各自變量對應(yīng)變量的影響大小, 越大, 對 的 影響越大。,結(jié)論,第四節(jié) 自變量篩選,目的:使得預(yù)報和(或)解釋效果好,多元線性回歸方程中所包含的自變量是根據(jù)專業(yè)知識和經(jīng)驗事先選擇好的,但在許多回歸分析的、應(yīng)用中,由于沒有清晰的理論依據(jù),回歸模型所包
9、含的自變量難以預(yù)先確定,如果將一些不重要的自變量也引入方程,會降低模型的精度,因此選擇有意義的自變量是回歸分析的第一步。 選擇自變量的基本思路是:盡可能將回歸效果顯著的自變量選入回歸方程中,將作用不顯著的特別是與自變量有密切線性關(guān)系的自變量排除在外。,一、全局擇優(yōu)法,目的:根據(jù)一些準(zhǔn)則建立 “最優(yōu)”回歸模型意義:對自變量各種不同的組合所建立 的回歸方程進(jìn)行比較 ,
10、 擇優(yōu)選擇方法:,,決定系數(shù)R2的缺點: 當(dāng)回歸方程中包含有很多自變量,即使其中有一些自變量對解釋應(yīng)變量變異的貢獻(xiàn)極小,隨著回歸方程的自變量的增加,R2 值表現(xiàn)為只增不減。,例15-2 用全局擇優(yōu)法對例15-1數(shù)據(jù)的自變量進(jìn)行選擇。,全局擇優(yōu)法的局限性,,如果自變量個數(shù)為4,則所有的回歸模型有24-1= 15個;當(dāng)自變量數(shù)個數(shù)為10時,所有可能的回歸為 210-1= 1023個;……;當(dāng)自變量數(shù)個數(shù)為50時,所有可能的回
11、歸為250-1≈1015個。,二、逐步選擇法,1.,1.前進(jìn)法,回歸方程中的自變量從無到有、從少到多逐個引入回歸方程。此法已基本淘汰。 2. 后退法,先將全部自變量選入方程,然后逐步剔除無統(tǒng)計學(xué)意義的自變量。 剔除自變量的方法是在方程中選一個偏回歸平方和最小的變量,作F檢驗決定它是否剔除,若無統(tǒng)計學(xué)意義則將其剔除,然后對剩余的自變量建立新的回歸方程。重復(fù)這一過程,直至方程中所有的自變量都不能剔除為止。理論上
12、最好,建議使用采用此法。 3.逐步回歸法,逐步回歸法是在前述兩種方法的基礎(chǔ)上,進(jìn)行雙向篩選的一種方法。該方法本質(zhì)上是前進(jìn)法。,1.從不包含任何自變量的模型開始(截距)2.添加具有最大統(tǒng)計學(xué)意義的變量進(jìn)入模型,如p值最小,小于預(yù)先給定的進(jìn)入標(biāo)準(zhǔn)的變量。3.重復(fù)第二步,直到?jīng)]有p值小于預(yù)先給定的進(jìn)入標(biāo)準(zhǔn)的變量。,,1.從整個模型開始(包含研究所涉及所有自變量及其交互項2.剔除對參數(shù)進(jìn)行t檢驗或方差分析的結(jié)果中最無統(tǒng)計學(xué)意義的變量
13、。如p值最大,大于預(yù)先給定的剔除標(biāo)準(zhǔn)的變量。3.重復(fù)第二步,直到?jīng)]有p值大于預(yù)先給定的剔除標(biāo)準(zhǔn)的變量。,,,1.從不包含任何自變量的模型開始。2.添加具有最大統(tǒng)計學(xué)意義的變量進(jìn)入模型。3.剔除對參數(shù)進(jìn)行t檢驗或方差分析的結(jié)果中最無統(tǒng)計學(xué)意義的變量。3.重復(fù)第二步和第三步,直到模型外沒有可進(jìn)入的變量或模型內(nèi)沒有可剔除的變量為止。,,表15-7 逐步回歸過程,表15-8 例15-3方差分析表,“最優(yōu)”回歸方程為,,結(jié)果表明:
14、血糖的變化與甘油三脂、胰島素和糖化血紅蛋白有線性回歸關(guān)系,其中與胰島素負(fù)相關(guān)。由標(biāo)準(zhǔn)化回歸系數(shù)看出,糖化血紅蛋白對空腹血糖的影響最大。,表15-9 例15-3的回歸系數(shù)的估計及檢驗結(jié)果,第四節(jié) 多元線性回歸的應(yīng)用 及其注意事項,一、多元線性回歸的應(yīng)用,影響因素分析,控制混雜因素預(yù)測:由自變量值推出應(yīng)變量Y的值控制:指定應(yīng)變量Y的值查看自變量的改變量,二、應(yīng)用條件,三、應(yīng)用的注意事項,(一)變量的數(shù)量化 (二)樣本
15、含量 (三)統(tǒng)計“最優(yōu)”與專業(yè)的“最優(yōu)” (四)多重共線性 (五)交互作用 (六)殘差圖,1. 影響因素分析,例如影響高血壓的因素可能有年齡、飲食習(xí)慣、吸煙狀況、工作緊張度和家族史等,在影響高血壓的眾多可疑因素中,需要研究哪些因素有影響,哪些因素影響較大。,,在臨床試驗中,則可能由于種種原因難以保證各組的指標(biāo)基線相同,如在年齡、病情等指標(biāo)不一致出現(xiàn)混雜的情況下,如何對不同的治療方法進(jìn)行比較等。 這些問題都可以利用回歸分析來處
16、理??刂苹祀s因素(confounding factor)的一個簡單辦法就是將其引入回歸方程中,與其他主要變量一起進(jìn)行分析,2. 估計與預(yù)測,如由兒童的心臟橫徑、心臟縱徑和心臟寬徑估計心臟的表面積;由胎兒的孕齡、頭頸、胸徑和腹徑預(yù)測出生兒體重等。,3. 統(tǒng)計控制 逆估計。,例如采用射頻治療儀治療腦腫瘤,腦皮質(zhì)的毀損半徑與射頻溫度及照射時間有線性回歸關(guān)系,建立回歸方程后可以按預(yù)先給定的腦皮質(zhì)毀損半徑,確定最佳控制射頻溫度和照射時間。,二、
17、多元線性回歸應(yīng)用的注意事項,,1.指標(biāo)的數(shù)量化,分2類,可用一個(0,1)變量。如性別,分k類,k-1個(0,1)變量,如血型。,數(shù)據(jù)格式回歸方程,建立回歸方程,,b1 :相當(dāng)A 型相對于O 型的差別b2 :相當(dāng)B 型相對于O 型的差別b3 :相當(dāng)AB 型相對于O 型的差別,,,(3)等級 定量。 一般是將等級從弱到強轉(zhuǎn)換為 (或
18、 )如文化程度分為小學(xué)、中學(xué)、大學(xué)、大學(xué)以上四個等級。Y為經(jīng)濟(jì)收入。,,,解釋:b(b1)反映X(X1) 增加1個單位, 增加b個單位(如:500元)。 表示中學(xué)文化較小學(xué)收入多500, 大學(xué)較中學(xué)多500,余類推。,2.樣本含量: n =(5~10)m。 3.關(guān)于逐步回歸: 對逐步回歸得到的結(jié)果不要盲目的信任,所謂的
19、“最優(yōu)”回歸方程并不一定是最好的,沒有選入方程的變量也未必沒有統(tǒng)計學(xué)意義。例如,例15-3中若將選入標(biāo)準(zhǔn)和剔除標(biāo)準(zhǔn)定為 和 選入的變量是 , 而不是 , 結(jié)果發(fā)生了改變。不同回歸方程適應(yīng)于不同用途,依專業(yè)知識定。,統(tǒng)計“最優(yōu)”與專業(yè)的“最優(yōu)”,不同準(zhǔn)則、方法得出的“最優(yōu)”方程不同不同的引入、剔除標(biāo)準(zhǔn)獲得的“最優(yōu)”
20、方程不同;方程還受數(shù)據(jù)的正確性、共線性影響研究者應(yīng)結(jié)合問題本身和專業(yè)知識及經(jīng)驗來決定,多重共線性,自變量間存在著相關(guān)關(guān)系,使一個或幾個自變量可以由另外的自變量線性表示時,稱為該變量與另外的自變量間存在有共線性(collinearity)。,,,,X1,X2,Y,4. 多重共線性 即指一些自變量之間存在較強的線性關(guān)系。如高血壓與年齡、吸煙年限、飲白酒年限等,這些自變量通常是高度相關(guān)的,有可能使通過最小二乘法建立回歸方程失效,引起下
21、列一些不良后果:(1)參數(shù)估計值的標(biāo)準(zhǔn)誤變得很大,從而t值變得很小。(2)回歸方程不穩(wěn)定,增加或減少某幾個觀察值,估計值可能會發(fā)生很大的變化。(3)t檢驗不準(zhǔn)確,誤將應(yīng)保留在模型中的重要變量舍棄。(4)估計值的正負(fù)符號與客觀實際不一致。,消除多重共線性:剔除某個造成共線性的自變量,重建回歸方程;合并自變量;采用逐步回歸方法。,多重共線性的識別與解決辦法,篩選自變量用主成分回歸嶺回歸,回歸系數(shù)的符號與專業(yè)知識不符變量的重要性
22、與專業(yè)不符R2高,但各自變量對應(yīng)的回歸系數(shù)均不顯著。方差膨脹因子(Variance Inflation Factors ,VIF) >10,交互作用,當(dāng)某一自變量對應(yīng)變量的作用大小與另一個自變量的取值有關(guān)時,則表示兩個變量有交互作用(interaction)。 檢驗兩變量間有無交互作用,普遍的做法是在方程中加入它們的乘積項再做檢驗。如考察X1、X2間的交互作用,可在模型中加入X1X2項。,(六)、殘差圖(residua
23、l plot),Spss 應(yīng)用,從菜單選擇 Regression Linear…Method中的選項: Enter 所選自變量強行全部選入方程 Stepwise 逐步回歸法重要的結(jié)果R、R Square、 Adjust R Square反映模型對應(yīng)變量變異的解釋程度。Adjust R Square尤其用于自變量個數(shù)不等的模型之間的比較。,ANOV
24、A方差分析表中的Sig.反映模型是否有統(tǒng)計學(xué)意義Coefficients表中B為各自變量系數(shù)(回歸系數(shù))。Beta為標(biāo)準(zhǔn)化回歸系數(shù),其絕對值用于說明自變量的重要性。t、Sig.檢驗各系數(shù)是否有統(tǒng)計學(xué)意義。逐步回歸的重要選項Method要選為StepwiseOptions中要設(shè)定合適的選入選出標(biāo)準(zhǔn)(注:Removal中設(shè)定的p值必須大于Entry中的設(shè)定。),參考書目1.孫振球主編 . 醫(yī)學(xué)統(tǒng)計學(xué) . 第 2 版 . 北京:人民
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論