基于多水平模型的工具變量方法研究及應(yīng)用.pdf_第1頁(yè)
已閱讀1頁(yè),還剩111頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、研究背景:
  隨著醫(yī)療衛(wèi)生信息化的不斷發(fā)展,對(duì)分析方法的需求不斷增加,并且“真實(shí)世界的研究”在目前越來(lái)越受到關(guān)注,隨著數(shù)據(jù)集收集范圍的不斷擴(kuò)大,數(shù)據(jù)來(lái)源常常包括不同的地區(qū)、不同的醫(yī)院,如全市醫(yī)院信息數(shù)據(jù)、全國(guó)衛(wèi)生服務(wù)調(diào)查數(shù)據(jù)等。這些數(shù)據(jù)具有層次結(jié)構(gòu)特征,對(duì)于這樣的數(shù)據(jù)進(jìn)行分析,首先需要考慮數(shù)據(jù)中不同水平單位對(duì)結(jié)果可能產(chǎn)生的影響,對(duì)于此類問(wèn)題,多水平分析模型可以很好地進(jìn)行處理。多水平模型將方差成分模型和多元回歸模型相結(jié)合,把廣義線

2、性模型中的差異拆分為固定效應(yīng)和隨機(jī)效應(yīng)兩部分,從而更加準(zhǔn)確地估計(jì)處理/暴露因素的效應(yīng)值。在利用多水平模型對(duì)具有層次結(jié)構(gòu)特征的數(shù)據(jù)進(jìn)行分析時(shí),不僅能夠很好地控制不同的水平因素對(duì)結(jié)果所產(chǎn)生的影響,而且通過(guò)納入多個(gè)已知觀測(cè)的混雜因素,能較好地控制這些已知觀測(cè)混雜因素對(duì)結(jié)果產(chǎn)生的影響。也有研究者將傾向性評(píng)分法(Propensity Score Analysis,PSA)引入多水平模型,采取傾向性評(píng)分匹配法、分層法和加權(quán)法對(duì)數(shù)據(jù)集中的已知觀測(cè)混雜

3、因素進(jìn)行控制,從而更好地獲得準(zhǔn)確的結(jié)果。但是,目前大部分衛(wèi)生服務(wù)方面的調(diào)查是關(guān)于人群健康方面的普查,當(dāng)研究者利用這樣的數(shù)據(jù)進(jìn)行某專項(xiàng)疾病或健康方面的研究時(shí),通常所需的變量并不能完全滿足研究要求,研究結(jié)果通常會(huì)受到未知觀測(cè)混雜因素的影響,如分析每周運(yùn)動(dòng)時(shí)間對(duì)自身健康狀況的影響,數(shù)據(jù)中已包括了一些已知觀測(cè)混雜因素(年齡、BMI、患病情況、吸煙、喝酒等),但對(duì)于本人的心情、家庭關(guān)系、病情輕重程度等因素調(diào)查數(shù)據(jù)中可能未包含或難以測(cè)量,這些因素同

4、樣可能會(huì)影響到分析結(jié)果的準(zhǔn)確性,而目前這些常用于具有層次結(jié)構(gòu)特征數(shù)據(jù)的分析方法并不能控制這方面的影響。在普通數(shù)據(jù)分析時(shí),可以利用工具變量方法對(duì)未知觀測(cè)混雜因素進(jìn)行控制,在本研究中,我們將工具變量的思想引入多水平模型數(shù)據(jù)分析中,用以處理未知觀測(cè)混雜因素所產(chǎn)生的影響。
  研究目的:
  目前,對(duì)于層次結(jié)構(gòu)特征數(shù)據(jù)中未觀測(cè)混雜偏倚的控制鮮有研究進(jìn)行探索,本研究針對(duì)此問(wèn)題,將構(gòu)建出多水平工具變量模型(Multilevel Inst

5、rumental Variable,MIV),從而較為全面地控制層次結(jié)構(gòu)特征數(shù)據(jù)中水平因素、已知觀測(cè)混雜因素和未知觀測(cè)混雜因素對(duì)結(jié)果所產(chǎn)生的偏倚,并且基于資料中數(shù)據(jù)類型的不同(連續(xù)性變量和分類變量),將構(gòu)建出不同的多水平工具變量模型,以分別適用于連續(xù)型變量和分類變量資料分析中。本研究還將對(duì)所構(gòu)建的模型進(jìn)行準(zhǔn)確性和精確性方面的評(píng)價(jià),探索各種數(shù)據(jù)條件下所應(yīng)當(dāng)采用的最佳參數(shù)估計(jì)模型,在模型構(gòu)建的基礎(chǔ)上,筆者引入自助法(Bootstrap),使

6、模型估計(jì)得到的結(jié)果更加可靠。
  研究方法:
  研究首先進(jìn)行數(shù)據(jù)模擬,數(shù)據(jù)的模擬過(guò)程主要根據(jù)數(shù)據(jù)類型的不同分為3部分,在數(shù)據(jù)模擬過(guò)程中將考慮到不同強(qiáng)度的未知觀測(cè)混雜因素和不同強(qiáng)度的工具變量,從而較為全面對(duì)模型進(jìn)行評(píng)價(jià)。
  (1)模型構(gòu)建
  在處理/暴露因素和結(jié)局變量為連續(xù)型變量情況下,將構(gòu)建出兩階段最小二乘多水平工具變量模型與兩階段殘差納入多水平工具變量模型;在處理/暴露因素和結(jié)局變量為連續(xù)型變量且均存在層

7、次效應(yīng)情況下,將構(gòu)建出兩階段多水平回歸工具變量模型和兩階段多水平回歸殘差納入工具變量模型;在處理/暴露因素和結(jié)局變量為分類變量情況下,將構(gòu)建出兩階段logistic回歸多水平工具變量模型和線性回歸+logistic回歸多水平工具變量模型。在模型構(gòu)建的過(guò)程中我們還引入了自助法(Bootstrap),在本研究中自助法采用的是分層個(gè)例重復(fù)抽樣法,根據(jù)原始樣本量的大小進(jìn)行等樣本重復(fù)抽樣,每次抽500次,然后用所構(gòu)建的模型對(duì)500個(gè)復(fù)樣本進(jìn)行分析

8、。
  (2)模型評(píng)價(jià)
  模型評(píng)價(jià)部分將所構(gòu)建的多水平工具變量模型和普通多水平回歸模型所得的結(jié)果用四個(gè)指標(biāo)進(jìn)行客觀科學(xué)的評(píng)價(jià),分別為絕對(duì)偏倚、置信區(qū)間寬度、標(biāo)準(zhǔn)誤、置信區(qū)間覆蓋率。根據(jù)這四個(gè)指標(biāo)可以反映模型在不同數(shù)據(jù)情況下的準(zhǔn)確性和精確性,為后續(xù)模型的調(diào)整和應(yīng)用提供了科學(xué)根據(jù)。
  (3)實(shí)例分析
  最后將構(gòu)建的多水平工具變量模型應(yīng)用于實(shí)例分析中。實(shí)例分析數(shù)據(jù)來(lái)源于第五次全國(guó)衛(wèi)生服務(wù)調(diào)查數(shù)據(jù)(上海)。針對(duì)結(jié)局

9、變量和處理/暴露因素為連續(xù)型變量,本研究所選的實(shí)例為分析上海60歲以上老人每周體育鍛煉時(shí)間對(duì)其健康狀況的影響,男性和女性分別進(jìn)行分析,其中可能存在的未知觀測(cè)混雜包括本人的心情、家庭關(guān)系、病情輕重程度等,結(jié)局變量采用歐洲五維健康量表(European quality of life5-dimensions,EQ-5D)評(píng)分,工具變量選擇為其愛(ài)人每周運(yùn)動(dòng)的次數(shù)。針對(duì)結(jié)局變量和處理/暴露因素為分類變量,本研究所選的實(shí)例為分析上海市60以上歲男

10、性是否吸煙對(duì)其是否患有高血壓的影響,其中可能存在的未知混雜包括基因特征、周圍環(huán)境因素等,工具變量選擇為其家人是否吸煙。實(shí)例分析中應(yīng)用普通多水平模型和模擬中所獲得的最優(yōu)多水平工具變量模型進(jìn)行分析,并對(duì)不同方法所獲得的結(jié)果進(jìn)行比較。
  研究結(jié)果:
  數(shù)據(jù)模擬的結(jié)果顯示,研究發(fā)現(xiàn)在資料中存在未知觀測(cè)混雜因素時(shí),所構(gòu)建的多水平工具變量模型有較好的效果,具體如下:
  (1)處理/暴露因素和結(jié)局變量為連續(xù)型變量
  當(dāng)

11、不存在未知觀測(cè)混雜因素時(shí),所有模型均能獲得較為理想的結(jié)果,但當(dāng)研究中存在未知觀測(cè)混雜因素時(shí),普通多水平線性回歸模型和自助法多水平線性回歸模型會(huì)獲得偏倚較大的結(jié)果,偏差最大的出現(xiàn)在βu=6、αz=1時(shí)的普通多水平線性回歸模型中,其絕對(duì)誤差為-2.8219,但多水平工具變量的結(jié)果較為穩(wěn)定,當(dāng)βu=6、αz=5時(shí)兩階段最小二乘多水平工具變量模型、兩階段殘差納入多水平工具變量模型、自助法兩階段最小二乘多水平工具變量模型和自助法兩階段殘差納入多水

12、平工具變量模型結(jié)果的絕對(duì)偏倚分別為-0.0004、-0.0009、0.0012和0.0006。在四種多水平工具變量模型中,自助法引入的模型結(jié)果的置信區(qū)間較寬,提示結(jié)果更為保守,當(dāng)工具變量的強(qiáng)度增加時(shí),其區(qū)間會(huì)相應(yīng)的變窄。
  (2)處理/暴露因素和結(jié)局變量為連續(xù)型變量且均存在層次效應(yīng)
  普通多水平線性回歸模型僅適用于無(wú)未知觀測(cè)混雜因素的數(shù)據(jù)中,該模型在數(shù)據(jù)中存在未知觀測(cè)混雜因素時(shí)所得的結(jié)果偏離金標(biāo)準(zhǔn)較大。雖然兩階段自助法兩

13、階段最小二乘多水平工具變量模型可以基本準(zhǔn)確估計(jì)得出處理/暴露因素的效應(yīng)值,但其置信區(qū)間過(guò)寬。兩階段多水平回歸工具變量模型、兩階段多水平回歸殘差納入工具變量模型、自助法兩階段多水平回歸工具變量模型和自助法兩階段多水平回歸殘差納入工具變量模型在不同的數(shù)據(jù)情況下均能得到理想的結(jié)果,其中自助法兩階段多水平回歸工具變量模型的準(zhǔn)確度和精確度總體最佳,當(dāng)βu=6、αz=5時(shí)該模型的絕對(duì)偏倚僅為0.0009。
  (3)處理/暴露因素和結(jié)局變量為

14、分類變量
  結(jié)果展示當(dāng)數(shù)據(jù)中無(wú)未知觀測(cè)混雜因素存在的情況下普通多水平logistic回歸模型所獲得結(jié)果最佳,但當(dāng)混雜因素存在時(shí),普通多水平logistic回歸模型所得的結(jié)果將偏離金標(biāo)準(zhǔn)較遠(yuǎn),并且置信區(qū)間覆蓋率較低,自助法兩階段logistic回歸多水平工具變量模型和自助法線性回歸+logistic回歸多水平工具變量模型兩種模型在有未知觀測(cè)混雜因素?cái)?shù)據(jù)情況下表現(xiàn)較好,點(diǎn)估計(jì)最接近所設(shè)的金標(biāo)準(zhǔn),但此兩個(gè)模型的置信區(qū)間受到工具變量強(qiáng)度

15、影響較大,在弱工具變量時(shí),模型估計(jì)的結(jié)果過(guò)于保守,區(qū)間過(guò)寬,兩階段logistic回歸多水平工具變量模型和線性回歸+logistic回歸多水平工具變量模型兩種模型在各種數(shù)據(jù)情況下均未表現(xiàn)出很好的效果。
  實(shí)例分析的結(jié)果顯示,在分析每周運(yùn)動(dòng)時(shí)間同自身健康狀況間的關(guān)系時(shí),普通多水平回歸模型和多水平工具變量模型均提示在60歲以上人群中,男性和女性每周運(yùn)動(dòng)時(shí)間同健康評(píng)分間存在正相關(guān)關(guān)系,但在男性中普通多水平回歸模型所得回歸系數(shù)為0.42

16、(0.41-0.43),多水平工具變量模型所得回歸系數(shù)為0.70(0.53-0.86),兩者相差約0.3,女性中,普通多水平回歸模型所得回歸系數(shù)為0.49(0.48-0.50),多水平模型所得結(jié)果為0.37(0.21-0.53),兩者相差約0.1。說(shuō)明在該實(shí)例中,兩者都能較好地識(shí)別出感興趣的影響因素與應(yīng)變量之間的關(guān)系,但對(duì)關(guān)系大小的衡量存在差別。
  在分析60歲以上男性吸煙和患高血壓間關(guān)系時(shí),普通多水平logistic回歸提示吸

17、煙為保護(hù)因素,OR值為0.74(0.65-0.83),此與目前所公認(rèn)的結(jié)論相違背,但多水平工具變量模型提示吸煙是患高血壓的危險(xiǎn)因素,OR值為5.05(1.40-18.26)。此項(xiàng)研究中僅納入五項(xiàng)協(xié)變量,很多高血壓的危險(xiǎn)因素在衛(wèi)生服務(wù)調(diào)查中未收集,如家族史、血液生化指標(biāo)等,普通分析方法無(wú)法控制這些未知觀測(cè)混雜因素對(duì)結(jié)果產(chǎn)生的影響,從而得到了錯(cuò)誤的結(jié)論,當(dāng)利用多水平工具變量模型對(duì)這些因素進(jìn)行控制后,所得結(jié)果將更為可靠。
  研究結(jié)論:

18、
  本研究通過(guò)模擬研究和實(shí)例分析發(fā)現(xiàn)多水平工具變量模型均能很好地獲得較為準(zhǔn)確的結(jié)果。當(dāng)研究資料收集較全,均不存在十分重要的未知觀測(cè)混雜因素時(shí),普通的分析模型即可獲得較好的結(jié)果。當(dāng)資料并非為專項(xiàng)研究調(diào)查,層次結(jié)構(gòu)特征數(shù)據(jù)中遺漏了較多或一些較為重要的影響因素時(shí),普通分析模型將不再適用,可以采用本研究所構(gòu)建的多水平工具變量模型。當(dāng)針對(duì)連續(xù)性變量數(shù)據(jù)時(shí),首先需要看數(shù)據(jù)中處理/暴露因素在水平2單位上是否存在異質(zhì)性,當(dāng)處理/暴露因素存在層級(jí)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論