管理統(tǒng)計學(xué)-現(xiàn)代回歸分析方法_第1頁
已閱讀1頁,還剩177頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、現(xiàn)代回歸分析方法,上海財經(jīng)大學(xué)統(tǒng)計系韓小亮,目的: 回歸分析研究的是一個變量(應(yīng)變量)和其他變量(自變量)之間的關(guān)系.其目的可能是:1. 確定哪些變量有關(guān)及其程度;2.預(yù)測;3.找出最優(yōu)的組合;4.控制;5.尋求合適的數(shù)學(xué)模型;6.評估兩個或兩個以上因素的交互影響等等.,,1.回歸分析(Regression Analysis),數(shù) 據(jù) 資 料(data),應(yīng) 變 量(response )自 變 量(ind

2、ependent variables, predictor variables) 這 里n 是 記 錄 數(shù) 目,k 是 自 變 量 數(shù) 目( 包 括 常 數(shù) 項).,,,基本模型:,,,,,,,2.線性回歸(Linear Regression),模 型: Y = X? + ? 這 里X是Z 的函數(shù)(已知), ? 是 未 知 參 數(shù) 向 量 ,? 是 誤 差 項,,也 就 是 說

3、 有,,,,線 性 模 型 的 假 設(shè):,1. 正 態(tài) 分 布;2.互 相 獨(dú) 立;3. 同 方 差;4. 一 個 隨 機(jī) 誤 差 項;5. 系 統(tǒng) 影 響 的 相 加 性 (additivity of systematic effects);6. 資料完整.,參 數(shù) 估 計(?):,最 小 二 乘 估 計 →有(注意:這里沒有用到正態(tài)分

4、布的假定),,,,,極 大 似 然 估 計 這 里 在正態(tài)分布 的假定下 這 個 估 計 是 所 謂BLUE 的.,,,,,估計量的分布,,,殘 差 平 方 和 的 分 布,→方 差 的 估 計: ( 矩 估 計),,,顯 著 性,1。 模 型 的 顯 著 性,

5、即 檢 驗 假 設(shè) 使 用 統(tǒng) 計 量 當(dāng) 為 真 時,,,,,,2。某個因素的顯著性,即檢驗假設(shè) 定義對稱方陣設(shè) 為其對角元素,則有檢驗統(tǒng)計量當(dāng) 成立時,,,,,,,模型選擇(變量數(shù)目),當(dāng)兩個模型有嵌套的(nested)關(guān)系時,可以用下述 F 檢驗來決定取舍模型1:模型2:當(dāng) 為真時這里

6、 是回歸平方和, 是殘差平方和.,,,,,,方差分析表,擬合優(yōu)度,確定系數(shù): R2 statistic:  R2c (adjust R2):,,Under H0:?1 = ?2 = … = ?p-1 = 0  (test R2 exactly equivalent to F test),應(yīng)變量的變換(transformation

7、of response),目的: 1。正態(tài)分布(對稱); 2。同方差; 3。相加性。,異方差或者不獨(dú)立,加權(quán)最小二乘估計 :假如 Y = X? + ?  ? ~ N( 0, ?2V) 而且V 已知,則存在滿秩對稱矩陣 P

8、60; PTP = PP =P2 =V 且有 P-1 ? ~ N( 0, ?2In )即  P-1Y| X ~N(P-1 X?, ?2In ),,對 P-1Y = P-1 X?+ P-1 ? 取最小二乘估計,得 ?^ = (XTV-1X)-1XTV-1Y 稱之為加

9、權(quán)最小二乘估計(weighted least square estimator) 有 ?^ ~ N(? , ?2 (XTV-1X)-1),3.共線性 (Multicollinearity, collinearity),這里主要討論“幾乎”共線性,順便也討論一下精確的共線性,,定義:自變量之間存在強(qiáng)烈的線性關(guān)系。精確地說, 存在 使或

10、 對至少一個 k成立.,,跡象:XTX至少有一個很小的特征值(≈0) 注意: λj≥0 for j=1,2,…,p (這里λj 是XTX的特征值).,,影響: 典型的影響是使參數(shù)估計的方差增大從而使整個估計不精確. 總的說來: Var(?^ )= ?2 (XTX)-1具體地說: Var(?^j )= for j=0,1,…,p-1,,這里

11、R2j 是 即其它自變量對自變量j回歸的確定系數(shù).,,線性回歸的理想要求是:Y對X有很強(qiáng)的線性關(guān)系,而X之間有較弱的線性關(guān)系.,共線性的測度,(1)   VIF (variance inflation factor) VIFj=1/(1- R2j ) for j=0,1,2,…,p-1. 當(dāng) max(VIFj)≥10時, 有共線性問題 (這是經(jīng)驗公式,無精確理論基礎(chǔ)),,注意: VI

12、F0≡1/(1- R20 )其對應(yīng)模型是 此模型右邊無常數(shù)項.,,(2)   Condition Number  這里λ(j)是按大小排列的矩陣XTX的特征值. 當(dāng)κ>1000時,可能有嚴(yán)重的共線性問題.,,(3)   Condition Index  for j=2,3,…,p

13、 Condition Index 能發(fā)現(xiàn)多于一個的共線性關(guān)系.經(jīng)驗公式: 列出所有的κj≥100.,解決方法,(1)   從模型中除去一些變量(例如對應(yīng)于比較大的VIFj的Xj).  這個問題與變量選擇和模型確定的方法有關(guān); 如果 βj≠0, 則剔除βj會導(dǎo)致 ,即最小二乘估計成為有偏估計.,,(2)   主成分回歸(Principal Compo

14、nent Regression) Y = X? + ?=X(UUT) ? + ?= (XU)(UT?) + ?≡Gα + ? 這里 U 是XTX 的特征向量矩陣(XTX=UΛUT);G=XU (G稱為主成分 principal component)α= UT?,,這時α 的LS估計是 α^=(GTG)-1GTY=Λ-1GTY → β^=U α^ 如果把G去掉(p-r)

15、列(比如說對應(yīng)于較小的λi),記為G(r), G(r)=XU(r), 取α~=(GT(r) G(r) )-1GT(r) Yβ~=U(r) α~=U(GT(r) G(r) )-1GT(r) Y 稱之為主成分估計(principal component estimator).,,這時有SV(β~)=?2  SMSE(β~)=?2  即這個估計是有偏的(除非α2i=0 i=r+1,…

16、,p). (注意:主成分回歸只減少”成分”個數(shù),沒有減少變量個數(shù)).,,(3)   嶺回歸(Ridge regression) β*= (XTX+kI)-1XTY這里k>0通常是個小正數(shù).,,前面有SV(?^ ) = ?2 現(xiàn)在有SV(?* ) = ?2 SV(?^ )當(dāng)k→∞時, SV(?* ) →0 事實上

17、Var(?* )= ?2 UΛ*UT 這里(Λ*)ii=λi(λi+k)-2,,然而 SMSE(β*) =?2 β*是β的有偏估計. 當(dāng)k↑ 有Var(?* )↓ 同時bias(?* )↑.注意到上述SMSE(β*)的第二項是單調(diào)增函數(shù),且有當(dāng) k=0時為0,則存在k* 使SMSE(k* )< SMSE(0).,,但事實上koptimal 不可求(因為式中的

18、β 未知).經(jīng)驗方法是:1) k^=p*?^2/?^T?^這里?^2 = (Y - X?^)T(Y - X?^) /(n – p);  2) 找出使β*”穩(wěn)定”下來的k (1<VIFmax <10);  3) 畫脊嶺跡 (ridge trace), 即對j=0,1,…,p-1 畫出?*j(k),k.脊嶺跡也可用來作為除去變量的標(biāo)準(zhǔn):除去那些不穩(wěn)定(變號,很快趨于零)的變量.,廣義逆回歸,

19、如果完全的共線性存在,即XTX的秩小于p,則最小二乘估計?^不唯一.可用廣義逆(如Moore-Penrose 廣義逆)找出?^的一般解.,4.重大影響點(diǎn),異類點(diǎn)和穩(wěn)健性回歸,(Influential points, Outliers and Robust regression),,定義: 殘差(residual) 這里 hat matrix:  H=X(XTX)-1XT 

20、;有  var(e)= (I-H)σ2 和 var(ei)=(1-hii) σ2   且有(含有β0項時) 和,,定義:標(biāo)準(zhǔn)殘差(Standardized residual)zi=ei/s有,,定義:學(xué)生殘差(Studentized residual) 在回歸模型假定下ri漸進(jìn)服從自由度為(n-p)的學(xué)生分布.,,定義:大折刀殘差(Jackknife residual

21、)這里s2(-i)是指去掉第i 項的方差估計. 在回歸模型假定下r(-i)精確地服從自由度為(n-p-1)的學(xué)生分布. 當(dāng) (n-p)>>30時 ri, r(-i) 都漸進(jìn)服從N(0,1).,常用殘差圖,(1)   分布圖或直方圖(histogram);(2)   盒子圖(box-plot or schematic plot);(3) 

22、  正態(tài)圖或半正態(tài)圖;(4)   二維圖(如Y^,r(-i)).,重大杠桿點(diǎn)(high leverage point),一個事實: for i=1,2,…,n.(single-row effects),帽子矩陣 H的一些性質(zhì),(1)   對稱(symmetric);(2)   冪等(idempoten

23、t): H2=H;(3)   1/n≤hii ≤1;(4)   特征值: the eigenvalues are all either 0 or 1, (# of 1s=Rank(H));(5)   Rank(H)=Rank (X)=p, (tr(H)=Σhii=p).,,On average: hii=p/n;經(jīng)驗公式:A rule of thumb: hii&g

24、t;2p/n → high leverage point i.,,Leverage的度量:Cook’s distance當(dāng)Di<<1時,沒有 high leverage 的問題.(注意: high leverage point 不一定會很大地改變參數(shù)估計值.)[圖],異類點(diǎn)及其處理,異類點(diǎn)(Outliers)通常指的是這樣一種情況:資料不純(contamination),即資料中的一個記錄(點(diǎn))或某項記錄(點(diǎn))顯

25、然與其他大部分記錄(點(diǎn))”不一樣”.,異類點(diǎn)的統(tǒng)計模型,原假設(shè):備用假設(shè)1:確定性備用假設(shè) (deterministic alternative)有記錄或測量誤差;備用假設(shè)2:內(nèi)在性備用假設(shè) (inherent alternative),,備用假設(shè)3:混合型備用假設(shè)

26、 (mixture alternative)備用假設(shè)4:滑動型備用假設(shè) (slippage alternative)除了事先確定的k個點(diǎn)之外(確定指的是數(shù)目k而不是點(diǎn))所有其他點(diǎn)都屬于F. F由位置參數(shù)(location) μ 和等級參數(shù)(scale) σ2 確定.而k個點(diǎn)則來自μ和σ2 有變動的版本F;,,備用假設(shè)5:可變換型備用假設(shè)

27、 (exchangeable alternative)只有一個異類點(diǎn)j等可能地來自[1,2,…,n].,異類點(diǎn)的處理方法,(1) 找出并剔除(discardancy test): 例如基于殘差的檢驗.注意:當(dāng)用max{r(-i)}n的P值進(jìn)行檢驗時,需要考慮所謂的Bonferroni correction.(2) 去除或減少其影響(accommodation):穩(wěn)健性(robus

28、t)統(tǒng)計.注意:異類點(diǎn)常常是重大杠桿點(diǎn),但重大杠桿點(diǎn)不一定是異類點(diǎn).,Bonferroni Inequality,n tests each of size α, the probability of falsely labelling at least one point, an outlier is no grater than nα.如果選α’=α/n, 則可得保守的 α 值,穩(wěn)健性回歸(Robust regression),

29、穩(wěn)健性統(tǒng)計的一些方法 (以位置[location]估計為例):(1) 修剪法(trimming)略去r個最小的和s個最大的樣本值:或者取αn=r+f(0< f <1),,(2) 溫莎法(Winsorizing)或者類似于 定義,,(3) L估計量,M估計量和R估計量L-estimators (Linear Order Statistics estimators)注意:修剪法和溫莎

30、法都是L估計量.,,M-estimators找出方程 關(guān)于 的解.注意:當(dāng)密度函數(shù)為f(x-μ) 時,取 , 就是似然方程的解.R-estimators 由一定的秩檢驗(rank test,如 Wilcoxon test)的程度所取得.,為什么要穩(wěn)健性回歸,替代方法是分兩步走: (1)去除異類點(diǎn);(2)用經(jīng)典

31、方法進(jìn)行回歸.但是去除異類點(diǎn)首先需要可靠的參數(shù)估計;原先的分布假設(shè)可能不對;經(jīng)驗表明穩(wěn)健性方法往往比剔除異類點(diǎn)的方法更可取.因為它不決斷地接受或拒絕一個觀察點(diǎn).,穩(wěn)健性回歸的要求,(1) 在假定模型下是好的估計;(2) 假如資料對模型假定有一點(diǎn)偏離,其參數(shù)估計還是”穩(wěn)健的”;(3) 如果資料對模型假定有較大的偏離,參數(shù)估計也不是”災(zāi)難性”的.,穩(wěn)健性回歸的幾個例子,(1) 考慮M估計量當(dāng) 時, 它就是

32、LS估計.取 這里0<f<2. 較小的 f 等價于給較大的殘差以較小的權(quán).,,特別地,當(dāng)f=1時,稱之為Least Absolute Deviation Estimation,又叫L1-regression.或者取這里c>0是一個常數(shù).,,(2) 考慮下列步驟:(i) 對 Yi 回歸,得Y^i, s和 ri(或 r(-i));(ii) Winsorize Yi:這里c是穩(wěn)健控制值

33、,一般取1到2之間.(iii) 對 Y*i回歸,得新的Y^i, s和 ri(或 r(-i));重復(fù)(i)和(ii)直到收斂.,,注意:當(dāng)用: e*i =Y*i -Y^i 代替: ei =Yi -Y^i 時,將會低估σ2修正方法:這里m是未修改的Y的數(shù)目.,,(3) LTS regression這里h<n, 稱之為Least Trimmed Squares Regression,,(4) LMS regre

34、ssion稱之為Least Median of Squares Regression注意:穩(wěn)健性回歸的思想具有一般的意義.,5. 廣義線性模型(Generalized Linear Models),線性模型的推廣一大類回歸模型有完整的理論結(jié)構(gòu),邏輯回歸(Logistic Regression),如果應(yīng)變量Yi只能取兩個值0和1,則Yi服從二點(diǎn)分布(Bernoulli distribution).設(shè)

35、 則,,邏輯函數(shù):,邏輯回歸模型,設(shè)這里g定義為連系函數(shù)(link function),連系函數(shù)將線性組合Xiβ與數(shù)學(xué)期望pi連在一起.則即 p是關(guān)于η的邏輯函數(shù),且有 0<pi <1.,參數(shù)β的極大似然估計,由得似然函數(shù)于是 for r=1,2,…k.,費(fèi)雪信息矩陣(Fisher information matri

36、x),這里,,當(dāng) 是邏輯連系函數(shù)時注意:需用疊代算法求出β^,即解方程組.,參數(shù)估計β^的性質(zhì),事實上β^是漸進(jìn)正態(tài)分布的.,擬合優(yōu)度,差異函數(shù)(deviance function):(注意:0?log(0)=0)如果模型假定正確, D漸進(jìn)服從 ;如有兩個嵌套模型H0 和 HA ,則D0 –DA 漸進(jìn)服從 .,,注意:嵌套模型的檢驗比顯著性檢驗D更強(qiáng),即D

37、服從 的要求比較高, D0 –DA 服從 的要求比較低,甚至當(dāng)D0和DA 都不服從 和 時亦成立.,二項分布(Binomial distribution)的情形,等價于mj個貝努里實驗,且有:,,設(shè)連系函數(shù)為似然函數(shù) [去掉常數(shù)項] 為,,有這里,,當(dāng)     是邏輯連系函數(shù)時差異函數(shù),正態(tài)連系函數(shù)(probit link func

38、tion),如果連系函數(shù)取所謂的probit link的話,即則有:和將此式代入,既可得對應(yīng)的  和W.,普阿松回歸(Poisson Regression),應(yīng)變量Yi只能取非負(fù)的離散值(事實上只需要一邊有界),其離散程度大致與其水平成正比例.設(shè)即則,,設(shè)(對數(shù)連系函數(shù)) 則對任何X和β有,參數(shù)β的極大似然估計,去掉常數(shù)項后這里,,當(dāng) 時(對數(shù)

39、連系函數(shù))注意:需用疊代算法求出β^,即解方程組,參數(shù)估計β^的性質(zhì),β^漸進(jìn)服從N[β, (XT WX)-1 )],擬合優(yōu)度,差異函數(shù):如果模型假定正確, D漸進(jìn)服從 ;如有兩個嵌套模型H0 和 HA ,則D0 –DA 漸進(jìn)服從 .,過度離散(over-dispersion),實際案例中常有如對應(yīng)于負(fù)二項分布的情形.解決方法:設(shè) 估計,廣

40、義線性模型,四個組成部分 1。數(shù)學(xué)期望(均值) E(Yi ) = ?i 2。線性預(yù)測量 (linear predictor) ?i = Xi? 3。連系函數(shù) (link function) g(?i) = ?i

41、 4。方差函數(shù) (variance function) Var(Yi) = ? V(?i),線性指數(shù)分布族(linear exponential family),形式如: L(?,?;y)= exp{[y?-c(?)]/?+h(y,?)}(這里假定 ? 是已知的。如果 ? 是未知的,它可能是二參數(shù)的指數(shù)分布族,也可能不是。),,對線性指數(shù)分布族有: E(y) = c?(?)

42、 ? ? Var(y) = ?c?(?) ? ?V(?)這里 ? 稱之為離散參數(shù)(dispersion parameter),常用分布的離散參數(shù)和方差函數(shù),,,,,當(dāng)連系函數(shù)g取 c?的反函數(shù)(記之為 c?-1 )形式時,我們稱g為標(biāo)準(zhǔn)連系函數(shù)(canonical link),常用分布的標(biāo)準(zhǔn)連系函數(shù),,其他常用連系函數(shù):正態(tài)(probit): g(?)=?-1(?);冪族(power family): g(

43、?)=?? (??0) g(?)=log(?)(?=0)余雙對數(shù)(complementary log-log) g(?)=log[-log(1-?)],參 數(shù) 估 計(?),線性指數(shù)分布族的似然估計方程組是 ?(Yi -?i )/?i V(?i )???i /??r = 0 r=1,

44、2,…,k對廣義線性模型,它成為 ? (Yi -?i )/?i V(?i ) ?xir /g?(?i ) = 0 r=1,2,…,k,,當(dāng)離散參數(shù) ?i = ?ai i = 1,2,…,n 時,該方程組成為 ? (Yi -?i )/ai V(?i ) ?xir /g?(?i ) = 0 (*) r=1,2,…,k而當(dāng)連系函數(shù)g是標(biāo)準(zhǔn)連系函數(shù)時,有 ?Y

45、i xir /ai = ??i xir /ai r=1,2,…,k,,一般來說方程組(*)沒有直接的解法。當(dāng)V(?)=1, g(?)=? 時(線性模型),解是 ?^ = (XT W-1 X)-1 XT W-1 Y這里 W=diag(1/ai ),迭代加權(quán)最小二乘法,(iterative weighted least squares,簡寫為 IWLS) 考慮變量 zi

46、 = ?i +(Yi - ?i )g?(?i )有 E(zi ) = ?i = ?xi ?r Var(zi ) = [g?(?i )]2 ai V(?i ),,迭代算法:(1)從某一個?i(0) 開始(通常取?i(0) = Yi ) 得 ?i(0) = g(?i(0) );(2)給定?i(t) 和?i(t) ,算出zi(t) = ?i(t) +(Yi

47、 - ?i(t) )g?(?i(t) )wi(t) = 1/[g?(?i(t) )]2 ai V(?i(t) ) i=1,2, …,n;,,(3)給出估計?(t+1) = (XT W(t) X)-1 XT W(t) z(t)(這里 W(t) = diag(wi(t)))定義?(t+1) = X?(t+1) ?(t+1) = g-1 (?(t+1) )重復(fù)步驟(2)和(3)直到收斂。,迭代加權(quán)最小二乘估計的性

48、質(zhì),?^ ~* N(?, i-1 (?))這里 i-1 (?) = ?-1 XT WX W = diag(wi ) wi = 1/[g?(?i )]2 ai V(?i ) i=1, 2, …,n,估計量方差的估計,Cov^(?^) = ?(XT W^X)-1? 的估計: ?~ = 1/(n-p) ?(Yi - ?i^ )/[ai V(?i^ )],擬合優(yōu)

49、度,定義差異函數(shù)(deviance)為D(y; ?^) = 2?[l (y; y,?) – l(y; ?^,?)]如果模型假定正確, D漸進(jìn)服從 ;如有兩個嵌套模型H0 和 HA ,則D0 –DA 漸進(jìn)服從 .,常用分布的差異函數(shù),正態(tài)分布 ?(y-?^)2 普阿松分布 2?[y(log(y/?^)-(y-?^)]二項分布 2?{y(log(y/?^)+(

50、m-y) log[(m-y)/(m-?^)]}伽瑪分布 2?[-log(y/?^)+(y-?^)/?^],,在原假定下,D漸進(jìn)服從 ;如有兩個嵌套模型H0 和 HA ,則D0 –DA 漸進(jìn)服從 .,非參數(shù)回歸(non-parametric regression),離散圖平滑法(scatterplot smoother):假定X只含有一個

51、變量x.在x上定義一個函數(shù):s(x)=S(Y|x)一般s(x) 定義在x的所有定義域上,但也可能只定義在觀察值 上.這時對一般的s(x0 )就需要用某種插值法計算.,類型:,(1)格子平滑法(bin smoother, regressogram):選點(diǎn):定義:取:,,(2)移動平均法(running-mean smoother, moving averag

52、e smoother):定義:取:,,(3)跑動直線平滑法(running-line smoother):取:這里 是對 回歸的LS估計量.,,倘若這個回歸是加權(quán)的,則是所謂的loess(locally-weighted running-line smoother).具體地說可采取下列步驟:(i)找出與最接近的k個樣本點(diǎn),記為

53、 ;(ii)定義:(iii)取權(quán)數(shù)這里(iv),,(4)核平滑法(kernel smoother):取:對點(diǎn)的權(quán)數(shù)為,,這里λ是窗寬參數(shù)(window-width parameter); c0是個常數(shù),通常使權(quán)數(shù)的和為一; d(t)是關(guān)于|t|的減函數(shù),如:(Gaussian kernel)(Epanechnikov kernel)(minimum variance kernel)等

54、等.注意: 窗寬參數(shù)λ的選擇比核函數(shù)的選擇重要的多.,,(Gaussian kernel)(Epanechnikov kernel)(minimum variance kernel),,(5)回歸樣條(regression spline):找出k個節(jié)點(diǎn)(knots):取:(+表示正的部分),,S(x)有三個特性 (i)在任何區(qū)間 內(nèi)是三次函數(shù);(ii)有一階和二階連續(xù)導(dǎo)數(shù);

55、(iii)三階導(dǎo)數(shù)是個階梯函數(shù).當(dāng)加上節(jié)點(diǎn)以外函數(shù)為線性的附加限制時,(三次)樣條稱之為自然樣條(natural spline).給定節(jié)點(diǎn)的數(shù)目和位置,未知參數(shù)可用回歸法求得.但如何確定節(jié)點(diǎn)的數(shù)目和位置是個較復(fù)雜的問題.,,(6)三次平滑樣條(cubic smoothing spline):找出一個有一階和二階連續(xù)導(dǎo)數(shù)的任意函數(shù)f, 使這里λ是個固定常數(shù),

56、 .可以證明這個函數(shù)是節(jié)點(diǎn)取在所有上的natural cubic spline.,平滑參數(shù)λ,設(shè)離散圖平滑的模型是:定義:(average mean-squared error)(average predictive squared error)(這里Yi*是在點(diǎn)xi上的一個新觀察值).有:,,定義:(cross-validation sum of squares)有:(注意:(av

57、erage squared residual)不是PSE的好的估計量).可以用下列標(biāo)準(zhǔn)確定λ:,,定義:線性平滑法:對任意常數(shù)a和b,有上述平滑法都是線性平滑法.,,對于觀察點(diǎn) 來說,一個線性平滑法可表示為這里S是一個 矩陣,稱為平滑矩陣(smoother matrix).對于一個線性平滑法 來說, 定義偏,,有:,,

58、定義:Mallows’ Cp這里 λ*是個很小的數(shù)(盡量減小偏).因為所以Cp是PSE的一個估計.可以用下列標(biāo)準(zhǔn)確定λ:,,注意:(1)Cp只適用于線性平滑法,CV則適用于一般的平滑法.(2)在實際應(yīng)用時上述兩法時常特性不佳.這時用直觀的圖像法選擇λ可能更可靠一些.(3)用自由度來確定λ也是常用的方法.,平滑法的自由度,有三個表示:(1) 自由度:對于一個線性平滑法,,(2)誤差自由度:對非線性平滑

59、法的一般定義是:,,(3) 方差自由度:對非線性平滑法的一般定義是:,,注意:I 如果S是個對稱投影矩陣(symmetric projection matrix)(例如線性回歸,多項式回歸,回歸樣條),則有II 對于三次平滑樣條有并且三者都是關(guān)于λ的減函數(shù).,置信區(qū)間,對于線性平滑 有這里偏向量 是依賴于未知函數(shù) f的.在一定假

60、定下偏的一個估計是于是可取 的對角線元素構(gòu)造置信區(qū)間.,,這里取自由度,近似的F檢驗,對于兩個線性平滑法(假定f1^比f2^更平滑),有,,一個更好的檢驗是取有,相加模型(additive model),一般的相加模型可表示為這里,,懲罰性的最小二乘條件(penalized least-squares):可以用使penalized least-squares最優(yōu)化的方法來求得合

61、適的相加模型.,,注意:(1) 所謂半?yún)?shù)模型(semi-parametric model)是相加模型的一個重要特例,如:(2) 相加模型可以包括某一個或某幾個自變量是離散變量的情況.(3) 相加模型可以包括某一個或某幾個函數(shù)是多元函數(shù)的情況,如:當(dāng)然這時需用scatterplot smoother的多維推廣.,廣義相加模型(generalized additive models),類似于從線性模型推廣到廣義線性模型的思路

62、,相加模型可以推廣成廣義相加模型.即定義四個組成部分 1。數(shù)學(xué)期望(均值) 2。相加預(yù)測量 (additive predictor) 3。連系函數(shù) (link function) 4。方差函數(shù) (variance function),Algorithm,其求解的思路也類似廣義線性模型(1) Initialize:(2) Update:with,,Construct weights

63、Fit a weighted additive model to zi , to obtain estimated Compute the convergence criterion,,(3) Repeat step (2) replacing by until is below some small threshold.,,注意: 所謂半?yún)?shù)廣義線性模型

64、(semi-parametric generalized linear model)是廣義相加模型的一個重要特例,如:,7. 模型選擇,模型選擇的目的常常是尋找一個最簡單的合理的模型來恰當(dāng)?shù)孛枋鏊^察到的資料.可以粗略地分為兩大類問題:(1) 同一類模型中參數(shù)和變量個數(shù)的選擇;(2) 不同類模型之間的比較.,,一個事實:如果真正的模型是而我們所用的回歸模型是最小二乘估計是則即一般這個估計是有偏的.,,且有

65、注意:項數(shù)太少會造成參數(shù)估計有偏;項數(shù)太多不會造成參數(shù)估計有偏,但因為減少了自由度從而造成效率(精確度)的喪失.,選擇回歸變量的基本步驟,(1) 確定最大的模型:保證”正確”的模型在它之內(nèi);(2) 確定選擇模型的條件;(3) 確定選擇變量的策略;(4) 用最后的模型分析資料;(5) 評估模型的可靠性.,確定最大的模型,可以包括:(1) 所有基本的回歸變量;(2)基本回歸變量的高階冪( 等等);

66、(3) 基本回歸變量的其它轉(zhuǎn)換如對數(shù),倒數(shù)等等;(4)基本回歸變量之間二階或更高階的交互影響(interaction);(5) (在某些問題中) 所有的控制變量和它們的(2),(3),(4).,,注意: 不要選太大的最大模型(會損失可靠性),宜中心突出,針對問題.還應(yīng)注意共線性問題.經(jīng)驗公式:(樣本大小和變量個數(shù)的比例),確定選擇模型的條件,(1) 確定系數(shù)此法只適用于參數(shù)個數(shù)相同的情形.因為對嵌套模型而言,

67、 是關(guān)于p的增函數(shù),而 無理論基礎(chǔ).,,(2) 對于嵌套的線性回歸模型,可用統(tǒng)計量當(dāng)F檢驗不顯著時,可以用較簡單的p個變量模型.,,(3) 定義選擇較小的,,(4) Mallow’s Cp這里k是最大的模型.選擇較小的或最小的Cp注意:當(dāng) 時,,,ACI (Akaike information criterion)選擇較小

68、的或最小的ACI注意: Mallow’s Cp是ACI的一個特例.,確定選擇變量的策略,(1) 列出所有的回歸模型;共有 個,通常不實際.,,(2)向后剔除法(Backward elimination):步驟:(i)給出最大的回歸模型; (ii)一次去掉一個變量,其對應(yīng)的t值(或等價地,其Partial F值)在所有變量只中是最小的,且低于給定的顯著性水平.直到?jīng)]有這樣的變量.注意:兩次

69、去掉一個變量不等價于一次去掉兩個變量(即使是相同的兩個變量!).,,(3) 向前選進(jìn)法(Forward selection):步驟:(i)選進(jìn)相關(guān)系數(shù)最大的第一個變量; (ii)一次一個,選進(jìn)一個變量,其Partial F最大(在已定模型,既現(xiàn)有變量下),且其p值大于給定的顯著性水平. 直到?jīng)]有這樣的變量.注意:A兩次進(jìn)一個變量不等價于一次進(jìn)兩個變量. B(ii)等價于計算部分相關(guān)系數(shù),即Res

70、idual of current model 對Xj.,,(4) 逐步回歸(Stepwise regression):步驟:(i)同向前選進(jìn)法(i); (ii)選進(jìn)一個變量,同向前選進(jìn)法(ii); (iii)去掉一個變量(如有必要),同向后剔除法(ii);直到?jīng)]有變量進(jìn),也沒有變量出.,,(5) 脊嶺回歸: 如前所述.(6) PRESS 法:定義:這里 是除去第i項后由模

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論