Logistic回歸樣本量確定所需自變量事件數(shù)的模擬研究.pdf_第1頁
已閱讀1頁,還剩80頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、有關logistic回歸的樣本量估計目前尚無實用的理論方法,實踐中更多的是基于經(jīng)驗方法,即所謂應變量(結局變量)事件數(shù)(EPV,events per variable)方法,即應變量發(fā)生的事件數(shù)(陽性事件數(shù)和陰性事件數(shù)的最小值)需不少于模型中納入的自變量個數(shù)乘以的倍數(shù)。目前已經(jīng)開展的EPV方法的研究較多,如Harrell(1984),Concato(1995),Peduzzi(1995),Vittinghoff等(2006),通過模擬研

2、究得出,采用基于最大似然估計(MLE,maximum likelihood estimate)的Wald方法時,EPV不小于5,10,甚至20等,才可保證回歸分析結果穩(wěn)健;楊曉妍(2005)的研究認為EPV應不小于10。
  然而,有關自變量的事件數(shù)(EIV,events of independent variable),即納入模型的某一二分類自變量發(fā)生事件的個數(shù)(二分類中個數(shù)較小的那類),對模型的影響卻鮮有研究,而此問題恰恰也是

3、實際數(shù)據(jù)中經(jīng)常會遇到的問題。如果EIV太小會導致logistic回歸模型的估計失準或不穩(wěn)定,可認為僅僅依靠EPV方法確定樣本量是不夠的,還需要結合EIV一起來確定樣本量。為此,本研究將通過模擬研究探討EIV對模型的影響,進而得到EIV界值的確定策略,為logistic回歸的樣本量估計提供更完善的經(jīng)驗方法。
  目的:
  本研究采用Monte Carlo技術從EIV的角度探討logistic回歸模型的穩(wěn)定性,并建立確定EIV

4、界值的方法。
  方法:
  Logistic回歸分析最常用的參數(shù)估計方法是MLE,還有罰分似然估計(PLE,penalized likelihood estimate)、精確logistic回歸、稀有事件logistic回歸等。PLE最早被提出用于解決最大似然估計收斂但至少有一個參數(shù)估計發(fā)散至正/負無窮的問題,主要發(fā)生在EIV與非事件數(shù)不平衡和高風險因素情況下,該方法校正了MLE的偏倚,具有較好的性能,效果優(yōu)于精確logi

5、stic回歸和最大似然估計,但在實際應用中較少。稀有事件logistic回歸原理是校正應變量發(fā)生事件的概率,從而保證回歸結果的穩(wěn)健性,且從楊曉妍模擬結果來看,該方法對模型結果改善較小。最常用的估計logistic回歸系數(shù)的置信區(qū)間和假設檢驗方法是Wald方法,但輪廓似然方法(profile likelihood method)較Wald方法和Bootstrap方法更為穩(wěn)健,能嚴格控制一類錯誤率,且檢驗效能優(yōu)于Wald方法。因此,本研究分

6、別選取MLE和PLE進行參數(shù)估計,選取Wald方法和輪廓似然方法估計回歸系數(shù)的置信區(qū)間及假設檢驗。
  本研究采用Monte Carlo技術進行模擬研究,后經(jīng)實例驗證,所有模擬及計算均通過R3.1.2軟件實現(xiàn)。
  首先,模擬產(chǎn)生logistic回歸的自變量(IV,independent variable)與應變量,6類模擬參數(shù)的設置為:自變量個數(shù)(1,4,8)、回歸系數(shù)絕對值(0,1,2)、樣本量(50,70,80,90,

7、100,200,300,400,500)、EIV(1,2,3,4,5,7,10,12,14,16,18,20,25,35,45,50,60,70,80,90,100,150,200,250)、自變量間的相關性(0,0.5,0.8)、自變量事件發(fā)生率(5%,10%,15%,30%,50%)。參數(shù)設置非完全組合,其中,EIV最多為樣本量的一半,且MLE下EIV最小為5;1個自變量模型不涉及相關性;僅在8個自變量模型中,設置自變量事件發(fā)生率。

8、應變量則通過概率抽樣獲得,概率由人為設定的β和模擬自變量計算得到。每種參數(shù)組合下模擬10000次。
  其次,分別采用MLE和PLE對模擬數(shù)據(jù)進行參數(shù)估計,采用Wald方法和輪廓似然方法進行假設檢驗及置信區(qū)間估計。
  最后,以一類錯誤(TypeⅠ Error)、均方根誤差(MSE,mean square error)、準確性(Accuracy)、精確性(Precision)和置信區(qū)間覆蓋率(CI Coverage)等五個指

9、標評價統(tǒng)計性能,由參數(shù)收斂的回歸結果與開始設定值比較獲得,從而探究EIV對模型結果的影響。當指標值達到期望值或達到相對穩(wěn)定狀態(tài)時對應的EIV即為EIV界值。
  結果:
  EIV對logistic回歸結果具有規(guī)律性影響,而自變量事件率的影響需結合樣本量共同發(fā)揮作用。表1,給出不同方法和五個評價指標下,EIV的具體選擇策略。
  基于MLE的Wald方法和基于PLE的輪廓似然方法,均可以較好地控制一類錯誤率,但是后者明

10、顯優(yōu)于前者。基于MLE的Wald方法需要EIV達到20以上,一類錯誤率可以穩(wěn)定保持在4%到6%之間;而基于PLE的輪廓似然方法需要EIV達到12以上,一類錯誤率可以穩(wěn)定保持在5%附近。而基于MLE的輪廓似然方法需EIV達到12以上,但樣本量要達到200以上,一類錯誤率可以穩(wěn)定保持在5%附近;基于PLE的Wald方法需EIV達到45以上,且樣本量也需達到200以上,一類錯誤率可穩(wěn)定保持在5%附近。
  第二步為量化危險因素的強度,即

11、參數(shù)估計的精準性方面。采用MLE方法時,EIV需分別達到18、12、16以獲得穩(wěn)定的均方根誤差、準確性和精確性;而采用PLE方法時,EIV需分別達到12、12、7。
  最后為置信區(qū)間覆蓋率方面,基于MLE的Wald方法和基于PLE的輪廓方法,可以將覆蓋率較好控制在預期范圍內(nèi),穩(wěn)定控制在95%附近,但后者明顯優(yōu)于前者?;贛LE的Wald方法需要EIV達到30以上;而基于PLE的輪廓方法需要EIV達到14以上。而另外兩種情況,基于

12、MLE的輪廓似然方法受其他因素影響較大,很多情況不能達到預期值;而基于PLE的Wald方法EIV達到45以上,且樣本量也需達到200以上。此外,自變量個數(shù)、回歸系數(shù)絕對值、樣本量及相關性對EIV界值存在一定影響,但在影響方向和強度上略微不同。
  結論:
  在實際應用logistic回歸模型時,應結合EPV和EIV一起確定樣本量。就EIV而言,應不小于12。當EIV在12→20之間,可采用基于PLE的輪廓似然方法,以較好地

13、控制一類錯誤并獲得精準的參數(shù)估計;當EIV大于等于20時,基于PLE的輪廓似然方法和基于最大似然的Wald方法均可使用。進一步,當EIV在14→30之間,可采用基于PLE的輪廓似然方法,以較好地控制置信區(qū)間覆蓋率;當EIV大于等于30時,基于PLE的輪廓似然方法和基于最大似然的Wald方法均可使用。以上兩種方法在推薦的EIV情況下均可使用,優(yōu)先推薦基于PLE的輪廓似然方法。在EIV較小又無法擴大樣本量的情況下,logistic回歸模型中

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論