版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、傾向性評分法(Propensity Score,PS)是近年來興起的一種控制已觀測的混雜因素的有效方法,該方法可以用來控制觀察性研究中的選擇偏倚問題。傾向性評分值,則是指在存在協(xié)變量的情況下,個體被分配至暴露組的條件概率。該方法主要分兩步,第一步是通過協(xié)變量與暴露因素構建模型來估計傾向性評分值,第二步是利用估計的傾向性評分值構建暴露因素與結局變量的模型,從而估計暴露效應。該方法近年來越來越受到研究者的重視和廣泛應用。但實際研究中存在大量
2、的大規(guī)模的多水平層次結構的數據,如國家衛(wèi)生服務調查數據等,而傾向性評分方法在這種數據中的研究和應用還較為少見,只在教育和經濟領域有一定的應用,尤其是針對多水平(多層)數據中暴露因素為無序多分類和有序分類變量的情況,仍然未見相關研究及報道。同時,對目前現有的暴露因素為二分類變量構建的多水平傾向性評分模型,也多局限在使用傳統(tǒng)的Logistic回歸等方法來估計傾向性評分值,但在單水平數據的研究中有報道Boosting算法估計傾向性評分更為準確
3、,而這兩種方法在多水平層次結構數據中孰優(yōu)孰劣還有待研究。
目的:
本研究針對醫(yī)療衛(wèi)生大數據中,多水平層次結構的數據中暴露因素為分類變量(包括二分類、無序多分類和有序分類變量)的情況,深入探索優(yōu)化目前二分類暴露因素的多水平傾向性評分模型,將Boosting估計傾向性評分的方法引入到多水平傾向性評分模型中,并構建暴露因素為無序多分類和有序分類數據(主要以三分類為例)的多水平傾向性評分模型,比較在不同數據情況下,運用不同的
4、傾向性評分計算方法以及不同估計暴露效應的模型所得暴露效應估計值的精確度與準確度,從而探索不同情況下的最優(yōu)模型。并構建的模型應用于第五次國家衛(wèi)生服務調查(上海區(qū))的實例分析中。
方法:
1.模擬數據
首先進行數據模擬,數據的模擬過程主要根據數據類型的不同分為三個部分,即暴露因素為二分類變量、無序多分類變量和有序分類變量三部分。在每一部分的模擬中,又根據數據結構的復雜程度,將數據分為三種情況,分別是:(1)僅包
5、含隨機截距;(2)包含隨機截距和隨機系數;(3)同時含有隨機截距、隨機系數以及第一、二水平協(xié)變量交互作用項(跨層交互作用項)。為了盡可能多地覆蓋各種樣本量情況,共設置3×30,3×50,3×100,3×200,3×600,20×30,20×50,20×100,20×200和200×30等共10種樣本情況,其中30,50,100,200,600分別代表第二水平包含的單位數,后文用site表示,3,20,和200分別代表第二水平的每個單位內
6、包含的第一水平的個體數,后文用size表示,而size×site所得的結果即為總的樣本含量。在模擬每種情況時,均模擬500個數據集,分別設置六個第一水平協(xié)變量,其中三個為連續(xù)型協(xié)變量,三個為二分類變量;同時設置一個連續(xù)型變量作為第二水平協(xié)變量。在暴露因素為二分類變量和有序分類變量時,將暴露效應的效應值的金標準γ設為2.5,當暴露因素為無序三分類變量時,設效應值的金標準分別為γ1=-2.5,γ2=4。
2.構建模型
針
7、對三種暴露因素的變量類型分別構建模型,其主要步驟如下:第一步,估計傾向性評分值。在估計時,對于二分類暴露因素,除采用傳統(tǒng)的Logistic回歸模型,還需采用單水平隨機效應模型、兩水平隨機效應模型、考慮水平因素的Logistic回歸模型以及Boosting算法(考慮或不考慮水平因素);對于暴露因素為無序多分類變量,采用多項Logistic回歸模型(考慮或不考慮水平因素)、多項單水平隨機效應模型、多項兩水平隨機效應模型、和Boosting算
8、法(考慮或不考慮水平因素);對于暴露因素為有序分類變量,采用有序Logistic回歸模型(考慮或不考慮水平因素)、累積單水平隨機效應模型、累積兩水平隨機效應模型、和Boosting算法(考慮或不考慮水平因素)。以上估計傾向性評分的方法中,若采用的為單水平隨機效應或兩水平隨機效應模型,還需根據數據結構的不同類型,分別采用隨機截距、隨機系數以及含跨層交互項的模型分別估計傾向性評分值。第二步,利用估計的傾向性評分值構建結局變量模型從而估計暴露
9、效應的效應值。對每種方法所估計的傾向性評分值進行協(xié)變量調整(回歸調整法)或加權(逆概率加權法)后納入多層模型進行分析。同時,本研究還采用了不使用傾向性評分法的單純多水平模型對暴露效應進行估計。
3.評價模型
采用標準誤作為模型估計暴露效應的精確度的衡量指標,采用絕對偏倚和95%置信區(qū)間覆蓋率作為衡量模型估計暴露效應準確度的指標。最終綜合以上三個指標,對模型做出綜合評價,選擇在不同情況下的最適合模型。
4.分
10、析實例
本研究以第五次國家衛(wèi)生服務調查上海區(qū)的數據作為實例分析部分的數據來源。暴露因素為二分類變量情況的實例為60歲以上老人吸煙狀況對其患慢性病的影響;暴露因素為無序多分類變量的實例將針對28-44歲人群婚姻狀況與自評健康之間的關系進行分析;而針對暴露因素為序分類變量,則采用居民體重指數與是否患高血壓的關系作為分析實例。
結果:
1.模擬研究結果
(1)暴露因素為二分類變量
在大多數情況
11、下,尤其是數據結構不包含跨層交互作用項的情況下,考慮水平因素的多層Boosting傾向性評分調整模型的估計結果較為可靠。而當數據中存在第一、二水平內協(xié)變量交互作用的情況時,若樣本量小于2000,則采用多層傾向性評分加權模型較容易得到較為準確的估計結果,具體來說:對樣本量為3×30,多層兩水平隨機效應傾向性評分調整法的準確度和精確度最高;對樣本量為3×50,考慮水平因素的多層Logistic傾向性評分調整法精確度和準確度最高;而對樣本量為
12、3×100,3×200和3×600的情況,采用多層Logistic回歸傾向性評分加權模型所得的結果則較為接近真實值。
(2)暴露因素為無序多分類變量
針對暴露因素為無序多分類變量的情況,多水平傾向性評分加權模型得到準確的估計結果的情況逐漸增多,而當樣本量大于或等于2000時多水平傾向性評分調整模型更容易得到較為準確的估計結果。
(3)暴露因素為有序分類變量
在樣本量較小,且第二水平單位內的個體數較
13、少時,采用多層傾向性評分加權模型較好,若數據結構僅包含隨機截距,多層累積Boosting傾向性評分加權和多層累積單水平隨機效應傾向性評分加權所得的結果更加穩(wěn)定;若數據結果包含跨層交互作用,則多層累積兩水平隨機效應傾向性評分調整模型更容易得到較準確的估計結果。而當樣本量增大到2000及以上,推薦采用多層傾向性評分調整模型,且各種估計傾向性評分方法的模型效果差別不大。但對于樣本量大且數據結構含跨層交互作用項,那么無論是多水平傾向性評分加權模
14、型或是調整模型,乃至單純的多層Logistic回歸模型所估計的暴露效應值,其可信度均有待提高。
2.實例分析結果
針對暴露因素為二分類變量的分析實例為60歲以上男性吸煙與患慢性病的風險,采用普通多水平模型所得的結果為吸煙是患慢性病的保護因素,估計的系數為-0.1511(p=0.0218),風險比(OR值)為0.86;而采用多層Boosting傾向性評分調整模型估計的效應值為-0.1096(p=0.1731),風險比為
15、0.90(95%CI,0.77-1.05),差別沒有統(tǒng)計學意義,提示尚不能認為吸煙與患慢性病的之間存在明確的風險關系。對暴露因素為無序多分類變量的分析實例為婚姻狀況對自評健康的影響,結果顯示,可以認為未婚與已婚相比,未婚人群更容易得到較好的自評健康狀況(OR=1.60,p=0.0006),其自評健康狀況得到較高分值的可能是已婚人群的1.60倍,而對于離異或喪偶人群,調整法和單純多水平模型都沒有得出具有顯著性差異的結果(p=0.6310)
16、,因而尚不能認為離異喪偶人群與已婚人群之間的自評健康狀況有差別。
結論:
本研究通過對不同樣本量情況下暴露因素為二分類、無序多分類和有序分類三種情況分別進行了模擬研究,發(fā)現在不同數據情況下,不同多水平傾向性評分模型估計暴露效應的準確度和精確度差異較大,每種方法都有其適用條件,不能一概而論。具體來說:(1)在樣本量為3×30,3×50,3×100,20×30,20×50這幾種情況下且變量間不存在跨層交互作用的情況下,可
17、以采用多水平傾向性評分加權模型;(2)當樣本量為3×200,3×600,20×100或20×200且變量跨層交互作用不明顯時,建議采用多水平傾向性評分調整模型;(3)當樣本量為20×200或200×30甚至更大時,若數據結構僅存在隨機截距,則可以采用多水平傾向性評分調整模型或只采用單純的多水平模型,二者均可以得到較為準確的結果;如果變量間存在跨層交互作用或有隨機系數存在,尤其是暴露因素為無序多分類的情況,各種方法得出的暴露效應的估計值的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 分類資料的多水平傾向性評分模型構建及應用.pdf
- 多組比較資料貝葉斯傾向性評分模型的構建及應用.pdf
- 多組比較的傾向性評分模型構建及匹配法的研究和應用
- 多組比較的傾向性評分模型構建及匹配法的研究和應用.pdf
- 煤層沖擊傾向性分類及指數的測定方法
- 中文WEB文本傾向性分類研究.pdf
- 微博評論情感傾向性分類研究.pdf
- 中文Web文檔傾向性自動分類研究.pdf
- 中文文本情感傾向性分類研究.pdf
- 中文網頁褒貶傾向性分類研究.pdf
- 文本傾向性分析中的分類方法研究.pdf
- 中文產品評論情感傾向性分類研究.pdf
- 網絡輿情的傾向性分析及應用研究.pdf
- 基于神經網絡的文本傾向性分類研究.pdf
- 傾向性評分法及在藥品不良反應信號檢測中的應用.pdf
- 基于復雜網絡的在線評論情感傾向性分類.pdf
- 貝葉斯傾向性評分模型及其在藥品不良反應信號檢測中的應用.pdf
- 傾向性評分方法及其在伽瑪刀治療垂體腺瘤療效評價中的應用.pdf
- 基于SVM增量學習的文本情感傾向性分類研究.pdf
- 面向網絡輿情的文本語義傾向性分類算法研究.pdf
評論
0/150
提交評論