

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領
文檔簡介
1、概述層次結(jié)構(gòu)數(shù)據(jù)的普遍性經(jīng)典方法及其局限性基本多水平模型多水平模型的應用,概 述,80 年代中后期,英美等國教育統(tǒng)計學家開始探討分析層次結(jié)構(gòu)數(shù)據(jù)(hierarchically structured data)的統(tǒng)計方法,并相繼提出不同的模型理論和算法。 多水平模型(multilevel models)最先應用于教育學領域,后用于心理學、社會學、經(jīng)濟學、組織行為與管理科學等領域,逐步應用到醫(yī)學及公共衛(wèi)生等領域。
2、,,Harvey Goldstein, UK, University of London, Institute of Education《Multilevel Models in Educational and Social Research》1987,Anthony Bryk, University of ChicagoStephen Raudenbush, Michigan State University , Departme
3、nt of Educational Psychology《Hierarchical Linear Models: Applications and Data Analysis Methods》1992,Nicholas Longford, Princeton University, Education Testing Service《Random Coefficient Models》1993,多水平主成分分析多水平因子分析多
4、水平判別分析多水平logistic回歸多水平Cox模型多水平Poisson回歸多水平時間序列分析多元多水平模型多水平結(jié)構(gòu)方程模型,,ML3 (1994) / MLN (1996) / MLwiN (1999) HLM (Hierarchical Linear Model) SAS (Mixed) SPSS (HLM) STATA (MLwiN),,兩水平層次結(jié)構(gòu)數(shù)據(jù),,水平2,,水平1,層次
5、結(jié)構(gòu)數(shù)據(jù)的普遍性,“水平” (level) :指數(shù)據(jù)層次結(jié)構(gòu)中的某一層次。例如,子女為低水平即水平 1 ,家庭為高水平即水平 2 ?!皢挝弧?(unit) :指數(shù)據(jù)層次結(jié)構(gòu)中某水平上的一個實體。例如,每個子女是一個水平 1 單位,每個家庭是一個水平 2 單位。,臨床試驗和動物實驗的重復測量 多中心臨床試驗研究 縱向觀測如兒童生長發(fā)育研究 流行病學現(xiàn)場調(diào)查如整群抽樣調(diào)查 遺傳學家系調(diào)查資料 meta 分析資料,層次
6、結(jié)構(gòu)數(shù)據(jù)為一種非獨立數(shù)據(jù),即某觀察值在觀察單位間或同一觀察單位的各次觀察間不獨立或不完全獨立,其大小常用組內(nèi)相關(intra-class correlation,ICC)度量。 例如,來自同一家庭的子女,其生理和心理特征較從一般總體中隨機抽取的個體趨向于更為相似,即子女特征在家庭中具有相似性或聚集性(clustering),數(shù)據(jù)是非獨立的(non independent)。,非獨立數(shù)據(jù)不滿足經(jīng)典方法的獨立性條件,采用經(jīng)
7、典方法可能失去參數(shù)估計的有效性并導致不合理的推斷結(jié)論。 但非獨立數(shù)據(jù)的組內(nèi)相關結(jié)構(gòu)各異,理論上,不同的結(jié)構(gòu)應采用相應的統(tǒng)計方法。如縱向觀測數(shù)據(jù)常用廣義估計方程(GEE),但有兩個局限性:一是對誤差方差的分解僅局限于2水平的情形,二是沒有考慮解釋變量對誤差方差的影響。當應變量的協(xié)差陣為分塊對角陣時,一般采用多水平模型。,經(jīng)典方法框架下的分析策略 經(jīng)典的線性模型只對某一層數(shù)據(jù)的問題進行分析,而不能將涉及兩層或
8、多層數(shù)據(jù)的問題進行綜合分析。 但有時某個現(xiàn)象既受到水平1變量的影響,又受到水平2變量的影響,還受到兩個水平變量的交互影響(cross-level interaction)。,個體的某事件既受到其自身特征的影響,也受到其生活環(huán)境的影響,即既有個體效應,也有環(huán)境或背景效應(context effect)。 例如,個體發(fā)生某種牙病的危險可能與個體的遺傳傾向、個體所屬的社會階層(如飲食文化和口
9、腔衛(wèi)生習慣)、環(huán)境因素(如飲水中氟濃度)等有關。,分解(disaggregation)聚合(aggregation)組內(nèi)-組間分析(within-between analysis),分解:不滿足模型獨立常方差的基本假定,回歸系數(shù)及其標準誤的估計無效,且未能區(qū)分個體效應與背景效應。一種分析策略是用啞變量擬合高水平單位的固定效應。 聚合:損失大量水平1單位的信息,更嚴重的是可能導致“生態(tài)學謬誤”(ecological f
10、allacy)。,組內(nèi)-組間分析:每個水平2單位內(nèi)進行分析,計算組內(nèi)相關(組內(nèi)效應);通過平均或整合得到每個水平2單位的數(shù)據(jù),計算組間相關(組間效應);忽略水平2的存在,在水平1上進行分析,計算水平1單位間的相關(總效應)。 組內(nèi)相關系數(shù)(intra-class correlation, ICC)被當作是總結(jié)多層次數(shù)據(jù)內(nèi)部相關的最終統(tǒng)計量,但并沒有對誤差方差進行解釋。,多水平分析的概念為人們提供了這樣一個框
11、架,即可將個體的結(jié)局聯(lián)系到個體特征以及個體所在環(huán)境或背景特征進行分析,從而實現(xiàn)研究的事物與其所在背景的統(tǒng)一。,經(jīng)典模型的基本假定是單一水平和單一的隨機誤差項,并假定隨機誤差項獨立、服從方差為常量的正態(tài)分布,代表不能用模型解釋的殘留的隨機成份。,基本的多水平模型,當數(shù)據(jù)存在層次結(jié)構(gòu)時,隨機誤差項則不滿足獨立常方差的假定。模型的誤差項不僅包含了模型不能解釋的反應變量的殘差成份,也包含了高水平單位自身對反應變量的效應成份。,多水平模型將單一的
12、隨機誤差項分解到與數(shù)據(jù)層次結(jié)構(gòu)相應的各水平上,具有多個隨機誤差項并估計相應的殘差方差及協(xié)方差。構(gòu)建與數(shù)據(jù)層次結(jié)構(gòu)相適應的復雜誤差結(jié)構(gòu),這是多水平模型區(qū)別于經(jīng)典模型的最主要特征。,多水平模型由固定與隨機兩部分構(gòu)成,與一般的混合效應模型的不同之處在于,其隨機部分可以包含解釋變量,故又稱為隨機系數(shù)模型(random coefficient model),其組內(nèi)相關也可為解釋變量的函數(shù)。換言之,多水平模型可對不同水平上的誤差方差進行深入和精細的
13、分析。,1. 方差成份模型 (Variance Component Model) 假定一個兩水平的層次結(jié)構(gòu)數(shù)據(jù),醫(yī)院為水平 2 單位,患者為水平 1 單位,醫(yī)院為相應總體的隨機樣本,模型中僅有一個解釋變量 x 。,和 分別為第 j 個醫(yī)院中第 i 個患者的反應變量觀測值和解釋變量觀測值, 和 為參數(shù)估計, 為通常的隨機誤差項。,,,示水平 2 單位,示水平 1 單
14、位,與經(jīng)典模型的區(qū)別在于 。經(jīng)典模型中的估計為 ,僅一個估計值,表示固定的截距,而在方差成份模型中 為隨機變量, 可估計 j 個截距值。 表示當 x 取 0 時,第 j 個醫(yī)院在基線水平時 y 的平均估計值。,,,,,,,,,,為平均截距,反映 與 的平均關系,即當 x 取 0 時,所有 y 的總平均估計值。 亦為隨機變量,表示第 j 個醫(yī)院 y 之平均估計值與
15、總均數(shù)的離差值,反映了第 j 個醫(yī)院對 y 的隨機效應。,表示協(xié)變量 x 的固定效應估計值。即 y 與協(xié)變量 x 的關系在各醫(yī)院間是相同的,每個醫(yī)院間 y 的變異與協(xié)變量 x 的變化無關。,,,,方差成份模型擬合 j 條平行的回歸線,截距不同( ),斜率相同( )。 它將醫(yī)院的參數(shù)估計作為隨機變量,并估計其隨機效應,提供了這些醫(yī)院所代表的醫(yī)院總體特征的信息。,對醫(yī)院水平殘差的假定,對患者水平殘差的假
16、定與傳統(tǒng)模型一致,水平 1 上的殘差與水平 2 上的殘差相互獨立,,,,,,,,,,反應變量可表達為固定部分 與隨機部分 之和。模型具有兩個殘差項,這是多水平模型區(qū)別于經(jīng)典模型的關鍵部分。 即水平2殘差,隨機效應、又稱潛變量(latent variable),,,此模型需估計4個參數(shù),除兩個固定系數(shù) 和 ,還需估計兩個隨機參數(shù)
17、和 。其中 即為醫(yī)院水平的方差成份, 為患者水平的方差成份。,,,,組內(nèi)相關的度量,方差成份模型中,反應變量方差為,,,,,,此即水平 2 和水平 1 方差之和,同一醫(yī)院中兩個患者(用i1,i2 表示)間的協(xié)方差為:,,,組內(nèi)相關(intra-class correlation, ICC),,測量了醫(yī)院間方差占總方差的比例,實際上它反映了醫(yī)院內(nèi)個體間相關,即水平 1 單位(患者)在水平 2 單位(醫(yī)院)中
18、的聚集性或相似性。,,由于模型不止一個殘差項,就產(chǎn)生了非零的單位內(nèi)相關。若 為 0,表明數(shù)據(jù)不具層次結(jié)構(gòu),可忽略醫(yī)院的存在,即簡化為傳統(tǒng)的單水平模型;反之,若存在非零的 ,則不能忽略醫(yī)院的存在。,,,水平 2 單位中的水平 1 單位間存在相關,通常的“普通最小二乘法”(Ordinary Least Squares OLS)進行參數(shù)估計是不適宜的。,進一步,如數(shù)據(jù)具三個水平的層次結(jié)構(gòu),如醫(yī)院、醫(yī)生和患者三個水平,則將有
19、兩個這樣的相關系數(shù),即反映醫(yī)院之間方差比例的醫(yī)院內(nèi)相關,反映醫(yī)生之間方差比例的醫(yī)生內(nèi)相關。,隨機系數(shù)模型是指協(xié)變量的系數(shù)估計不是固定的而是隨機的,即協(xié)變量對反應變量的效應在不同的水平 2 單位間是不同的。仍以醫(yī)院與患者兩水平數(shù)據(jù)結(jié)構(gòu)說明隨機系數(shù)模型基本結(jié)構(gòu)與假設。,隨機系數(shù)模型(Random Coefficient Model),與方差成份模型的區(qū)別在于 。,方差成份模型中協(xié)變量 的系數(shù)估計為固定的
20、 ,示協(xié)變量 對反應變量的效應是固定不變的。在隨機系數(shù)模型中協(xié)變量 的系數(shù)估計為 ,示每個醫(yī)院都有其自身的斜率估計,表明協(xié)變量 對反應變量的效應在各個醫(yī)院間是不同的。,,,,,,,,,的假定及其含義與方差成份模型一致?,F(xiàn) 為隨機變量,假定:,,,,表示第 j 個醫(yī)院的 y 隨 x 變化的斜率; 表示全部醫(yī)院的 y 隨 x 變化的斜率的平均值(平均斜率)。
21、 是指各醫(yī)院的 y 隨 x 變化的斜率 的方差。,示第 j 個醫(yī)院的斜率與平均斜率的離差值, 指上述截距與斜率離差值的協(xié)方差,反映了它們之間的相關關系。,,,,,,,,,,即表達為固定部分與隨機部分之和。其中,固定效應用均數(shù)描述,它決定了全部醫(yī)院的平均回歸線,這條直線的截距即平均截距 ,直線的斜率即平均斜率 。 為隨機系數(shù)。,將模型改記為:,,,,,,,,,隨機效應用方差描述,它反映了
22、各醫(yī)院之間 y 的變異與協(xié)變量 x 的關系。模型隨機部分具多個殘差項,需估計4個隨機參數(shù),即方差 、 和 以及協(xié)方差 。,模型的反應變量方差為:,表明各醫(yī)院間 y 的變異與協(xié)變量 x 有關,即每條回歸線不僅截距不同,且斜率也不同。當 x 取 0 時每個醫(yī)院 y 的平均估計值 不同,且每個醫(yī)院 y 隨 x 變化的斜率 不同。,,,,,,組內(nèi)相關與解釋變量有關,為使模型中每
23、個系數(shù)都有一個相應的解釋變量,可對截距 及其殘差 定義一個解釋變量 ,取值為1,為簡化模型,常省略該解釋變量。,,,,下面是包括隨機系數(shù)的一般形式的兩水平模型,即將模型擴展為納入其它固定部分解釋變量的形式:,這里,對模型隨機部分采用了新的解釋變量,實際上, , 。 值得指出,模型隨機部分的解釋變量常為其固定部分的一個子集,但亦可以
24、不是,即可以在任何水平上測量固定部分或隨機部分的解釋變量。,,,,,反應變量向量的協(xié)方差結(jié)構(gòu),從最基本的兩水平數(shù)據(jù)結(jié)構(gòu)來考察反應變量向量的協(xié)方差結(jié)構(gòu),即只包括隨機參數(shù) 和 。對應于方差成份模型,反應變量方差為水平 1 和水平 2 方差之和:,,,,,同一個醫(yī)院所診療的兩個患者(用 , 表示)間的協(xié)方差為:,以下矩陣表示同一個醫(yī)院所診療的三名患者的協(xié)差陣,,對兩個醫(yī)院而言,若一個醫(yī)院診療了三名患者,另一
25、個醫(yī)院診療了兩個患者,則具有 2 個水平 2 單位的反應變量向量 Y 總的協(xié)差陣可表達為:,,,矩陣的這種分塊對角結(jié)構(gòu)表達了不同醫(yī)院所診療的患者間的協(xié)方差為 0 ,它可進一步擴展到任意多的醫(yī)院數(shù)。將上述矩陣表達為另一種更簡略的形式:,為 維的 1 矩陣, 為 維的單位陣, 的下標 2 表明為兩水平模型, 的維數(shù)即水平2單位數(shù),主對角線塊的維數(shù)即水平1單位數(shù),它們均為方陣。在傳統(tǒng) OLS 估計中,
26、 為 0 ,則該協(xié)差陣退化為標準形式的 , 即殘差方差。,考察包括隨機系數(shù)的一般形式的兩水平模型,,或簡記為,對于具有隨機截距與斜率的兩水平模型,其反應變量協(xié)差陣具有以下典型的分塊結(jié)構(gòu):,,,,,,,,矩陣 為水平 2 的隨機截距與斜率的協(xié)差陣,即隨機系數(shù)協(xié)差陣,矩陣 為水平 1 的隨機系數(shù)協(xié)差陣。 這里,水平 1 只有一個單一的方差項,可進一步采用 表示這些協(xié)差
27、陣集。 將上述矩陣展開得到:,,這是具有分塊結(jié)構(gòu)的一個具有 2 個水平 1 單位的水平 2 單位的反應變量協(xié)差陣。此即構(gòu)造反應變量協(xié)差陣的一般模式,它同時也概括了擬合水平 1 復雜變異的可能性。,固定與隨機參數(shù)估計,固定和隨機參數(shù)的估計方法一般采用“迭代廣義最小二乘算法”(Iterative Generalized Least Squares,IGLS) (Goldstein,1986)或“限制性迭代廣義最小二乘法”
28、(Restricted Iterative Generalized Least Squares,RIGLS) (Goldstein,1989)。,,現(xiàn)以最基本的兩水平方差成份模型來闡明固定與隨機參數(shù)估計的基本思想和步驟。,,,,假定已知方差 的值,則可直接構(gòu)造分塊對角陣 ,簡記為 。直接采用通常的廣義最小二乘法(Generalized Least Squares GLS)可獲得固定系數(shù)的估計:,,在初始階段
29、,假定 為 0 ,即假定數(shù)據(jù)不具有系統(tǒng)結(jié)構(gòu),則給出固定系數(shù)通常的 OLS 估計 ,得到粗殘差:,,將粗殘差向量記為:,,將粗殘差向量形成交叉乘積矩陣 ,然后再形成交叉乘積矩陣 的向量化算子,記為 。相應的,也可以形成反應變量協(xié)方差陣 向量化算子,記為 。,,,,對應于 2 個醫(yī)院,一個診療 3 名患者,另一個診療 2 名患者,則
30、 和 均具有 32+22=13 個元素。因為 的期望為,可將這些向量間關系表達為以下線性模型,,,,,,,,=,+R=,+,+R,,,,這里, 為一個殘差向量。將粗殘差作為模型的反應變量向量,模型右邊包含兩個已知的解釋變量,其系數(shù)即待估計的隨機參數(shù) 和 。通過 GLS 方法獲得 和 的估計,回到初始模型則獲得固定系數(shù)新的估計,在
31、隨機與固定參數(shù)估計間反復迭代直至收斂,此即 IGLS 算法的基礎。,1. 重復測量數(shù)據(jù)的多水平模型當同一研究對象被重復測量多次時,測量點即為水平 1 單位,測量點又嵌套(nested)進作為水平 2 單位的個體,這種數(shù)據(jù)結(jié)構(gòu)具有典型的層次結(jié)構(gòu)特征。,多水平模型的應用,在臨床試驗和動物實驗中,常需對患者或動物的某些指標進行重復測量,以了解不同時間觀測指標的變化以及處理因素與觀測指標的相互關系;在生長發(fā)育研究中,也需對個體生長或發(fā)育指標
32、作多時點的重復測量。,常規(guī)使用的重復測量數(shù)據(jù)統(tǒng)計方法,一般要求資料是平衡的,即每一個體有相同次數(shù)的重復測量值,這對于實驗研究是可行的,但在生長發(fā)育研究中,測量常常是不規(guī)則的,這就出現(xiàn)了個體測量時點多少不一、時間間隔不等以及觀測值缺失等問題,它增加了傳統(tǒng)統(tǒng)計方法擬合個體生長曲線的難度,并引起估計結(jié)果不同程度的偏差。,多水平模型技術可有效和方便地處理此類測量模式的數(shù)據(jù),提供統(tǒng)計上有效的參數(shù)估計,并具有如下幾個特點:,(1) 考慮了分布于不同
33、的層次重復測量誤差,并給出相應的誤差估計值;(2) 擬合個體生長曲線時不要求相等的時間間隔,在擬合個體生長曲線的同時也估計全部樣本的平均曲線;,(3) 不要求每個個體都有同樣多的測量點,即缺失測量點并不增加擬合生長曲線的難度;(4) 便于在生長曲線中引入其它解釋變量,如性別、營養(yǎng)狀況和地區(qū)等,分析其對生長過程的影響。,2. Meta分析是指對具有相同研究假設的多項獨立研究結(jié)果所進行的合并分析,在合并不同來源的研究資料時可能引入異
34、雜方差(heterogeneous variance),因此,其數(shù)據(jù)可看成具有兩個水平的層次結(jié)構(gòu),即研究水平與觀察對象水平。,Meta分析的主要目的是為了得到比單一研究更精確的結(jié)果估計,進一步的目的則是分析影響研究結(jié)果間差異的因素。目前,Meta分析主要根據(jù)研究的“效應尺度”的齊性檢驗結(jié)果,而決定采用固定效應模型或隨機效應模型來合并每項研究的“效應尺度”。采用多水平模型可較為方便地分析影響研究結(jié)果間差異的因素如研究水平上的有關協(xié)變量包
35、括樣本含量、設計類型等。,3. 離散數(shù)據(jù)的多水平模型 在流行病學現(xiàn)場調(diào)查研究中,流行病學家常對發(fā)病率、患病率或死亡率以及它們在地區(qū)之間的變異感興趣。這里的兩水平結(jié)構(gòu)是,個體為水平 1,地區(qū)為水平 2。,此類研究常常擁有若干地區(qū)某時期的死亡記錄和死者個人特征以及地區(qū)特征如人口構(gòu)成或社會經(jīng)濟特征等。研究者可以分析這些解釋變量是否能夠解釋死亡率在地區(qū)之間的變異,也可以分析死亡率的差別(比如男性和女性之間)是否在地區(qū)之間不同等
36、。,如一項有關孕婦死亡率與孕婦吸煙關系的研究。首先,孕婦可能嵌套在不同的醫(yī)療機構(gòu)和社區(qū)中,社區(qū)和醫(yī)療機構(gòu)的特征可能影響死亡率以及死亡率與吸煙之間的聯(lián)系;其次,如果能夠獲得有關孕婦吸煙的一系列測量,可采用重復測量兩水平模型,研究吸煙的改變怎樣影響到死亡率的改變,以及更詳細地探討它們之間可能的因果聯(lián)系。,4. 多變量多水平模型:在醫(yī)學研究中,研究者常對個體作幾種測量(即測量幾個指標),如收縮壓、舒張壓和心率,如果將它們作為反應變量一起進行
37、分析,就可以設置多變量模型,分析解釋變量諸如年齡、性別、是否鍛煉、是否吸煙等與這三個反應變量的關系。此時,是將其作為一個兩水平模型,每一個體作為一個水平2單位,3種測量組成水平1單位。,5. 混合反應變量多水平模型例如,測定人們的吸煙行為,可以測量某人是否吸煙以及吸煙程度如何,我們可將其考慮為一個混合雙變量模型,將有關吸煙的影響因素作為模型中的解釋變量進行分析。,多水平分析的主要優(yōu)點:,1. 獲得回歸系數(shù)及其標準誤的有效估計;,2.
38、 可在模型固定或隨機部分引入任何水平上所測量的協(xié)變量,能夠探討各水平單位的特征對反應變量的影響,以及對反應變量在高水平單位甚至是低水平單位之間變異的影響,即這些特征是否可以解釋這些變異;,3. 在調(diào)整了低水平單位甚至高水平單位的各種特征后,可對高水平單位的殘差估計進行排序和比較,用于識別極端的高水平單位。 例如,比較若干醫(yī)院某病治愈率的高低,在調(diào)整了患者、醫(yī)護人員的各種特征之后,通過對醫(yī)院水平殘差估計的考
39、察,可以發(fā)現(xiàn)某些高度不典型的醫(yī)院。,若將其選出作進一步深入的個案調(diào)查,則形成定量的多水平分析和定性調(diào)查相結(jié)合的研究,有助于探討更詳細的因果機制。這是多水平分析的另一個重要特點。,應用前景,自然界與人類社會廣泛存在著層次結(jié)構(gòu)現(xiàn)象,生物系統(tǒng)具有自然的等級或組群結(jié)構(gòu),人類社會被組織成高度復雜的系統(tǒng)結(jié)構(gòu)。,醫(yī)學和公共衛(wèi)生領域研究的一個重要方面是探索疾病發(fā)生、發(fā)展及其變化的規(guī)律性。疾病總是在某種特定的環(huán)境中產(chǎn)生和發(fā)展的,即個體的結(jié)局是由個體和所在
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論