基于統(tǒng)計(jì)學(xué)習(xí)的逆概率加權(quán)方法研究及其在醫(yī)學(xué)中的應(yīng)用.pdf_第1頁
已閱讀1頁,還剩163頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、研究背景:
  探討處理/暴露因素與結(jié)局之間的因果效應(yīng)是醫(yī)學(xué)研究中的重要課題。隨機(jī)對(duì)照試驗(yàn)通常被認(rèn)為是因果效應(yīng)估計(jì)的金標(biāo)準(zhǔn)。在觀察性研究中,研究對(duì)象的處理分配機(jī)制通常不是隨機(jī)發(fā)生的,而是會(huì)受到眾多混雜因素的影響。在比較處理組間的暴露效應(yīng)時(shí),如果忽略這些混雜因素,效果估計(jì)就會(huì)發(fā)生偏倚?;谶呺H結(jié)構(gòu)模型的逆概率加權(quán)法(inverse probability weighing,IPW)是一類可用于觀察性資料處理效應(yīng)估計(jì)的重要方法。IPW

2、在應(yīng)用時(shí)需要滿足一些前提假設(shè),比如無遺漏未觀測(cè)混雜因素、非負(fù)性假設(shè)、穩(wěn)定單元處理值假設(shè)以及要正確設(shè)定權(quán)重估計(jì)模型等。對(duì)于IPW而言,第一階段的逆概率權(quán)重估計(jì)非常關(guān)鍵,這是因?yàn)樽罱K的處理效應(yīng)估計(jì)對(duì)于第一階段的權(quán)重估計(jì)準(zhǔn)確與否非常敏感。如果權(quán)重估計(jì)模型設(shè)定錯(cuò)誤(如遺漏二次項(xiàng)或交互項(xiàng)等),估計(jì)的權(quán)重就不準(zhǔn)確,且容易產(chǎn)生極端權(quán)重,導(dǎo)致最終的效應(yīng)估計(jì)發(fā)生偏倚。近年來,越來越多的研究人員推薦采用包括許多統(tǒng)計(jì)學(xué)習(xí)算法在內(nèi)的數(shù)據(jù)適應(yīng)性方法估計(jì)逆概率權(quán)重

3、,取得了良好的效果。然而,目前的研究大多局限于二分類處理因素資料以及單一結(jié)局縱向生存資料。
  醫(yī)學(xué)實(shí)踐中存在著許多處理/暴露因素為連續(xù)性變量的資料以及時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存資料。對(duì)于處理因素為連續(xù)性變量的資料類型而言,采用IPW進(jìn)行效應(yīng)估計(jì)要比二分類處理因素的情況更復(fù)雜,比如要考察處理因素的分布類型、控制較多的極端權(quán)重對(duì)于效應(yīng)估計(jì)的影響等。對(duì)于時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存資料而言,傳統(tǒng)的邊際結(jié)構(gòu)原因別風(fēng)險(xiǎn)模型(marginal structu

4、ral cause specific hazard models,MSCSHM)中的逆概率權(quán)重是多次隨訪所得的權(quán)重累乘所得。即使權(quán)重估計(jì)模型設(shè)定發(fā)生了比較輕微的錯(cuò)誤,最終處理效應(yīng)估計(jì)都將可能發(fā)生嚴(yán)重的偏倚。有鑒于此,探索基于統(tǒng)計(jì)學(xué)習(xí)算法的逆概率加權(quán)法在連續(xù)性處理因素資料以及時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存資料中的適用效果具有潛在的理論意義和實(shí)際應(yīng)用價(jià)值。
  研究目的:
  1、針對(duì)連續(xù)性處理因素的資料,通過模擬研究比較包括一般線性模型在

5、內(nèi)的7種逆概率權(quán)重估計(jì)方法在不同數(shù)據(jù)情境下的估計(jì)效果。同時(shí),以一般線性模型為例,探討權(quán)重截?cái)喾椒▽?duì)于效應(yīng)估計(jì)的影響。
  2、針對(duì)時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存資料,在MSCSHM的基礎(chǔ)上,引入8種統(tǒng)計(jì)學(xué)習(xí)方法估計(jì)逆概率權(quán)重。通過模擬研究比較logistic回歸與這8種方法在不同數(shù)據(jù)情境下的估計(jì)效果,篩選出其中表現(xiàn)較優(yōu)的方法。另外,探討不同程度的權(quán)重截?cái)嗨綄?duì)于各個(gè)估計(jì)方法的影響。
  研究方法:
  針對(duì)以上兩個(gè)研究目的,均分別

6、采用數(shù)據(jù)模擬→模型構(gòu)建→模型篩選→實(shí)例應(yīng)用的研究流程開展研究。分述如下:
  1、連續(xù)性處理因素的逆概率加權(quán)方法研究
  采用蒙特卡洛法模擬處理因素為連續(xù)性變量的觀察性隊(duì)列資料。模擬實(shí)驗(yàn)設(shè)置三種不同大小的樣本量(250、1000和2500)和四種不同復(fù)雜程度的處理因素生成模型(線性可加、非線性、非可加以及非線性非可加模型),比較一般線性模型(general linear model,GLM)、gamma回歸模型、分位數(shù)分組法

7、(quantile binning,QB)、協(xié)變量均衡性傾向性評(píng)分(covariate-balancing propensity score,CBPS)、非參數(shù)CBPS(nonparametric CBPS,npCBPS)、boosted分類與回歸樹(boosted classification and regression trees,boosted CART)和隨機(jī)森林(random forest,RF)等7種方法估計(jì)廣義傾向性評(píng)分

8、和逆概率權(quán)重,另外,對(duì)由GLM得到的穩(wěn)定權(quán)重分別在雙側(cè)1%和5%分位點(diǎn)進(jìn)行截?cái)嗵幚?,得到相?yīng)的截?cái)鄼?quán)重。進(jìn)一步,利用得到的9個(gè)權(quán)重變量對(duì)原始樣本加權(quán),通過加權(quán)結(jié)局回歸模型得到各自的處理效應(yīng)估計(jì)量。采用平均絕對(duì)相關(guān)系數(shù)(average absolute correlation coefficient,AACC)、相對(duì)偏倚(relative bias)、經(jīng)驗(yàn)標(biāo)準(zhǔn)差(standard deviation,SD)、模型輸出的標(biāo)準(zhǔn)誤(standa

9、rd error,SE)、均方根誤差(root mean squared error,RMSE)和95%置信區(qū)間(confidence interval,CI)覆蓋率等指標(biāo)評(píng)價(jià)估計(jì)效果。最后通過研究吸煙量對(duì)于醫(yī)療總支出的影響,比較不同的IPW估計(jì)方法在實(shí)際數(shù)據(jù)分析時(shí)的應(yīng)用效果。
  2、時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存數(shù)據(jù)的逆概率加權(quán)方法研究
  首先提出采用MSCSHM作為本研究的基礎(chǔ)框架,引入LASSO、貝葉斯logistic回歸、C

10、ART、bagged CART、boosted CART、隨機(jī)森林、支持向量機(jī)(support vector machine,SVM)和EL(ensemble learner)算法等8種統(tǒng)計(jì)學(xué)習(xí)方法構(gòu)造第一階段的逆概率權(quán)重。然后采用蒙特卡洛法模擬時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存數(shù)據(jù)。模擬設(shè)置了兩種不同大小的樣本量(250和1000)、不同強(qiáng)度的處理因素序列的自相關(guān)性(相關(guān)系數(shù)為log(4)和0.5)、不同的競(jìng)爭(zhēng)終點(diǎn)事件數(shù)(2和3)以及四種處理因素生成

11、模型(線性可加、非可加、非線性以及非線性非可加模型)。分別采用logistic回歸和上述8種統(tǒng)計(jì)學(xué)習(xí)方法估計(jì)穩(wěn)定權(quán)重。另外,分別在穩(wěn)定權(quán)重分布的雙側(cè)1%、5%、10%、25%、35%和50%分位點(diǎn)進(jìn)行截?cái)嗵幚恚接懖煌慕財(cái)嗨綄?duì)于處理效應(yīng)估計(jì)的影響。
  上述研究過程均采用統(tǒng)計(jì)分析軟件R3.4.3中實(shí)現(xiàn)。
  研究結(jié)果:
  1、連續(xù)性處理因素的逆概率加權(quán)方法研究
  (1)模擬研究結(jié)果:①在均衡協(xié)變量的能力方

12、面,CBPS在所有方法中表現(xiàn)最好,其次為npCBPS。直接采用GLM法得到的原始穩(wěn)定權(quán)重對(duì)樣本加權(quán),協(xié)變量分布仍然不均衡,通過權(quán)重截?cái)喾椒ㄈコ龢O端值后,采用GLM(1,99)加權(quán)后的樣本的協(xié)變量均衡性顯著改善。②Boosted CART和RF在不同程度的權(quán)重估計(jì)模型誤設(shè)的情況下的估計(jì)偏倚均較小,在減小偏倚方面優(yōu)于其他方法。③由GLM、GLM(1,99)和GLM(5,95)三者的SD可以看出,權(quán)重截?cái)喾椒梢詼p小估計(jì)量的方差,且隨著截?cái)嗨?/p>

13、平的提高,方差逐漸變小。④CBPS、npCBPS和boosted CART的RMSE較小,估計(jì)精度較高。由于權(quán)重截?cái)鄿p小了方差,致使GLM(5,95)和GLM(1,99)的RMSE小于前述三種方法。⑤隨著處理因素生成模型復(fù)雜度的上升,各個(gè)方法的95%CI覆蓋率均有不同程度的下降。GLM(1,99)、CBPS、npCBPS和boosted CART四種方法的表現(xiàn)相對(duì)穩(wěn)健。
  (2)實(shí)例研究結(jié)果:通過“考察處理因素的分布-逆概率權(quán)重

14、的估計(jì)-考察權(quán)重的分布-協(xié)變量均衡性的評(píng)價(jià)-劑量反應(yīng)函數(shù)的估計(jì)”的分析流程研究了吸煙數(shù)量對(duì)于醫(yī)療總支出的影響。結(jié)果表明,隨著吸煙量的增加,個(gè)人的醫(yī)療總支出也隨之增加;在調(diào)整了相關(guān)混雜因素后,吸煙量對(duì)于醫(yī)療總支出的效應(yīng)雖有所減弱,標(biāo)準(zhǔn)誤增大,但是除了boosted CART(1,99)加權(quán)法得到的估計(jì)量具有臨界統(tǒng)計(jì)學(xué)意義外,GLM(1,99)和RF(1,99)加權(quán)法得到的估計(jì)量仍具有顯著的統(tǒng)計(jì)學(xué)意義。
  2、時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存數(shù)據(jù)

15、的逆概率加權(quán)方法研究
  (1)模擬研究結(jié)果:①當(dāng)處理因素生成模型僅包括主效應(yīng)項(xiàng)(線性可加)時(shí),boosted CART估計(jì)量的偏倚較小,且在SD和RMSE方面表現(xiàn)最優(yōu),而基于參數(shù)logistic回歸的估計(jì)量的SD較大,估計(jì)精度較差。②當(dāng)處理因素生成模型僅包括二階交互項(xiàng)(非可加)時(shí),在大樣本且處理因素序列強(qiáng)自相關(guān)時(shí),boosted CART和RF的估計(jì)效果非常接近,且均優(yōu)于其他方法;在小樣本或處理因素序列中度自相關(guān)時(shí),RF在偏倚和

16、RMSE方面表現(xiàn)最優(yōu)。③當(dāng)處理因素生成模型包括非線性項(xiàng)時(shí),boosted CART在偏倚、RMSE和95%CI覆蓋率方面最優(yōu)。④當(dāng)處理因素生成模型同時(shí)包括二階交互項(xiàng)和非線性項(xiàng)時(shí),RF在RMSE和95%CI覆蓋率方面表現(xiàn)最優(yōu)。⑤低水平(如雙側(cè)1%分位點(diǎn))的權(quán)重截?cái)嗄軌蜻M(jìn)一步減小boosted CART和RF兩種方法的RMSE。⑥在相同的模擬情境下,多數(shù)估計(jì)方法的最優(yōu)截?cái)嗨讲槐M相同;在不同的模擬情境下,同一種方法的最優(yōu)截?cái)嗨揭灿胁町?。?/p>

17、優(yōu)截?cái)嗨降倪x擇具有數(shù)據(jù)依賴性。
  (2)實(shí)例研究結(jié)果:采用帶有時(shí)依性協(xié)變量的Cox比例風(fēng)險(xiǎn)模型、分別基于logistic回歸和boosted CART的MSCSHM分析硫唑嘌呤暴露對(duì)炎癥性腸病患者的兩個(gè)競(jìng)爭(zhēng)終點(diǎn)事件的風(fēng)險(xiǎn)大小。結(jié)果顯示,無論處理因素定義為過去3個(gè)月暴露還是累積暴露,各個(gè)模型的效應(yīng)估計(jì)結(jié)果均未顯示暴露效應(yīng)具有統(tǒng)計(jì)學(xué)意義。
  研究結(jié)論:
  對(duì)于連續(xù)性處理因素資料,CBPS和npCBPS在均衡協(xié)變量方

18、面的能力較強(qiáng);在減小估計(jì)偏倚方面,boosted CART和RF等統(tǒng)計(jì)學(xué)習(xí)算法的表現(xiàn)較優(yōu);在采用IPW進(jìn)行效應(yīng)估計(jì)時(shí),應(yīng)首先考察權(quán)重變量的分布,若存在較多離群點(diǎn),應(yīng)首先對(duì)權(quán)重作截?cái)嗵幚?,然后進(jìn)行下一步的效應(yīng)估計(jì)。
  對(duì)于時(shí)依性競(jìng)爭(zhēng)風(fēng)險(xiǎn)生存資料,在采用MSCSHM模型進(jìn)行效應(yīng)估計(jì)時(shí),由于實(shí)際資料中的處理分配機(jī)制往往未知,建議采用boosted CART和RF兩種方法替代傳統(tǒng)的logistic回歸構(gòu)建逆概率權(quán)重,以減小模型設(shè)定錯(cuò)誤對(duì)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論