版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
1、第六章 幾種常見離散型變量的分布和應用,寧夏醫(yī)科大學公共衛(wèi)生學院流行病與衛(wèi)生統(tǒng)計學系主講人 李吳萍 教授,Distribution and Application of Discrete Data,,一、二項分布條件與性質(zhì)(二分類變量)一)、Bernoulli試驗 在醫(yī)學科研中,很多情況可歸納為觀察隨機試驗中某事件是否發(fā)生。如觀察某藥物是否有效;觀察某指標的化驗結果是否為陽性。這些試驗的共同的特征是一次試驗只有兩
2、種獨立的結果:事件發(fā)生或事件不發(fā)生,這種試驗稱為Bernoulli試驗(或成敗試驗)。,第一節(jié) 二項分布,Bernoulli試驗序列滿足以下三個條件的 n 次試驗構成的序列稱為Bernoulli試驗序列。1)各觀察單位只能是具有相互對立的一種結果,如陽性或陰性,生存和死亡等。2)已知發(fā)生某一結果(如陽性)的概率為?,其對立結果的概率為1- ? 。實際工作中要求? 是從大量觀察中獲取的比較穩(wěn)定的數(shù)值。3)n個觀察單位結果互相獨立,
3、即每個觀察結果不會影響到其它觀察單位結果。,,例 6-1 設小白鼠接受某種毒物一定劑量時,其死亡率為80%,對于每只小白鼠來說,其死亡概率為0.8,生存概率為0.2?,F(xiàn)對3只小白鼠進行實驗觀察。結果見下表滿足Bernoulli試驗序列三個條件:一、二分類資料;二、因每次實驗條件不變,每只動物的死亡概率是相同的;三、每只動物的生與死不影響其它動物。,,,互不相容事件的加法定理,,,其中X=0,1,2…,n。 n,π是二項分布
4、的兩個參數(shù) 。,對于任何二項分布,總有,,構成Bernoulli試驗序列的n次實驗中,事件A出現(xiàn)的次數(shù)X的概率分布為:,二項式展開各項就是每種組合的概率其一般表達式為: 由于各觀察單位是獨立的,則從該總體中隨機抽取n例,其中恰有x例是陽性的概率為二項式展開,記作 ,稱為二項分布的概率函數(shù),即,,,兩種累計方式:最多有k例陽性概率 最少有k例陽性的概率,二項分布的累計概
5、率(cumulative probability),例6.2 已知某地玉米的黃曲霉污染率近年為20%。若抽取10個樣品作檢查,求(1)污染樣品數(shù)不超過一個的概率。 (2)污染樣品數(shù)在8個以上的概率。解:,,二) 二項分布的適用條件1. 每次試驗只會發(fā)生兩種對立的可能結果 之一,即分別發(fā)生兩種結果的概率之和 恒等于1;2. 每次試驗產(chǎn)生某種結果(如“陽性”)的 概率π固定不變;3. 重復試
6、驗是相互獨立的,即任何一次試 驗結果的出現(xiàn)不會影響其它試驗結果出 現(xiàn)的概率。,在上面的例6-1中,對這10名非傳染性疾病患者的治療,可看作10次獨立的重復試驗,其療效分為有效與無效,且每一名患者治療有效的概率(π=0.70)是恒定的。這樣,10人中發(fā)生有效的人數(shù)X~B(10,0.70)。,1、二項分布的均數(shù)與方差 若X服從二項分布,它的概率為π,樣本例數(shù)為n,可簡記為X~B(N,?)則: X的均數(shù)
7、 X的方差 X的標準差,三) 二項分布的性質(zhì),若以率表示,則樣本率 p 的總體均數(shù)為則樣本率 p 的總體方差為 則樣本率 p 的總體標準差為,樣本率的標準差也稱為率的標準誤,可用來描述樣本率的抽樣誤差,率的標準誤越小,則率的抽樣誤差就越小。在一般情形下,總體率π往往并不知道。此時若用樣本資料計算樣本率p=X/n作為π的估計值,則 的估計為:,例6-3 在觀測一種藥物對某種非傳染性
8、疾病的治療效果時,用該藥治療了此種非傳染性疾病患者100人,發(fā)現(xiàn)55人有效,計算率的抽樣誤差。,2、二項分布的圖形特征,二項分布圖形由參數(shù)n和π決定,當π=0.5時,分布是對稱的,見圖6-1,2、二項分布的圖形特征,當π≠0.5時,分布是偏態(tài)的,但隨著n的增大,分布趨于對稱。當n ~ ∞時,只要π不太靠近0或1,二項分布則接近正態(tài)分布,見圖6-2。,,圖6-2,二、二項分布的應用,(一)總體率的區(qū)間估計1. 查表法 2. 正
9、態(tài)近似法,二、二項分布的應用,1. 查表法 對于n ≤50的小樣本資料,直接查附表6百分率的95%或99%可信區(qū)間表,即可得到其總體率的可信區(qū)間。例6-2 在對13名輸卵管結扎的育齡婦女經(jīng)壺腹部-壺腹部吻合術后,觀察其受孕情況,發(fā)現(xiàn)有6人受孕,據(jù)此資料估計該吻合術婦女受孕率的95%可信區(qū)間。,二、二項分布的應用,附表6只列出 的部分。當 時,可先按“陰性”數(shù)n-X查得總體陰性率的1-α可信區(qū)間QL
10、~QU,再用下面的公式轉(zhuǎn)換成所需的陽性率的 1-α可信區(qū)間。 PL=1-QU, PU=1-QL例6-2 在對13名輸卵管結扎的育齡婦女經(jīng)壺腹部-壺腹部吻合術后,觀察其受孕情況,發(fā)現(xiàn)有7人受孕,據(jù)此資料估計該吻合術婦女受孕率的95%可信區(qū)間。,二、二項分布的應用,2. 正態(tài)近似法 根據(jù)數(shù)理統(tǒng)計學的中心極限定理可得,當n較大、π不接近0或1時,二項分布B(n,π)近似正態(tài)分布
11、 ,而相應的樣本率p的分布也近似 正態(tài)分布。為此,當n較大、p和1-p均不太小,如np和n(1-p)均大于5時,可利用樣本率p的分布近似正態(tài)分布來估計總體率的可信區(qū)間。,的 可信區(qū)間為:如: 的95%可信區(qū)間為 的99%可信區(qū)間為,,例 在某鎮(zhèn)按人口的1/20隨機抽取329人,作血清登革熱血凝抑制擴抗體反應檢驗,得陽性率為8.81%,求此陽性
12、率的抽樣誤差 Sp及總體陽性率的95%可信區(qū)間。本例n=329,p=8.81%,則其抽樣誤差為:則其總體率的95%可信區(qū)間為:,(二)樣本率與總體率的比較1.直接法 在諸如療效評價中,利用二項分布直接計算有關概率,對樣本率與總體率的差異進行有無統(tǒng)計學意義的比較。比較時,經(jīng)常遇到單側(cè)檢驗,即“優(yōu)”或“劣”的問題。那么,在總體陽性率為π的n次獨立重復試驗中,下面兩種情形的概率計算是不可少的。,(1)出現(xiàn)“陽性”的次數(shù)至多為k次
13、的概率為:(2)出現(xiàn)“陽性”的次數(shù)至少為k次的概率為,例6-4 據(jù)報道,對輸卵管結扎了的育齡婦女實施壺腹部-壺腹部吻合術后,受孕率為0.55。今對10名輸卵管結扎了的育齡婦女實施峽部-峽部吻合術,結果有9人受孕。問實施峽部-峽部吻合術婦女的受孕率是否高于壺腹部-壺腹部吻合術?顯然,這是單側(cè)檢驗的問題,其假設檢驗為H0:π=0.55H1:π>0.55 =0.05,,對這10名實施峽部-峽部吻合術的婦
14、女,按0.55的受孕率,若出現(xiàn)至少9人受孕的概率大于0.05,則不拒絕H0;否則,拒絕H0,接受H1。本例n=10,π=0.55,k=9。按公式(6-12),按 α =0.05水準,拒絕H0,接受H1,即認為實施峽部-峽部吻合術婦女的受孕率要高于壺腹部-壺腹部吻合術。,2.正態(tài)近似法 當n較大、p和1-p均不太小,如np和n(1-p)均大于5時,利用樣本率的分布近似正態(tài)分布的原理,可作樣本率p與已知總體率π0的比較。檢驗統(tǒng)計
15、量u值的計算公式為:,例6-6 對某疾病采用常規(guī)治療,其治愈率為45%?,F(xiàn)改用新的治療方法,并隨機抽取180名該疾病患者進行了新療法的治療,治愈117人。問新治療方法是否比常規(guī)療法的效果好?本例是單側(cè)檢驗,記新治療方法的治愈率為π,而π0=0.45。其假設檢驗為H0:π=0.45H1:π>0.45 α =0.05,本例n=180,p=117/180=0.65查u界值表(t界值表中 v為 ∞的一行)得單側(cè)
16、 P<0.005 。按 а=0.05水準,拒絕H0,接受H1,即新的治療方法比常規(guī)療法的效果好。,(三)兩樣本率的比較兩樣本率的比較,目的在于對相應的兩總體率進行統(tǒng)計推斷。設兩樣本率分別為p1和p2,當n1與n2均較大,且p1、1-p1及p2、1-p2均不太小,如n1p1、n1(1-p1)及n2p2、n2(1-p2)均大于5時,可利用樣本率的分布近似正態(tài)分布,以及獨立的兩個正態(tài)變量之差也服從正態(tài)分布的性質(zhì),采用正態(tài)近似法對兩
17、總體率作統(tǒng)計推斷。,檢驗統(tǒng)計量u的計算公式為:,例6-7 為研究某職業(yè)人群頸椎病發(fā)病的性別差異,今隨機抽查了該職業(yè)人群男性120人和女性110人,發(fā)現(xiàn)男性中有36人患有頸椎病,女性中有22人患有頸椎病。試作統(tǒng)計推斷。H0:π1=π2H1:π1≠π2 =0.05,本例n1=12,X1=36,p1=X1/n1=36/120=0.30n2=110,X2=22,p2=X2/n2=22/110=0.2
18、0,查u界值表得0.05<P<0.10。按 =0.05水準,不拒絕H0,即尚不能認為該職業(yè)人群頸椎病的發(fā)病有性別差異。,(四)研究非遺傳性疾病的家族集聚性 非遺傳性疾病的家族集聚性(clustering in families),系指該種疾病的發(fā)生在家族成員間是否有傳染性?如果沒有傳染性,即該種疾病無家族集聚性,家族成員患病應是獨立的。此時以家族為樣本,在n個成員中,出現(xiàn)X個成員患病的概率分布呈二項分布;
19、否則,便不服從二項分布。,例6-8 某研究者為研究某種非遺傳性疾病的家族集聚性,對一社區(qū)82戶3口人的家庭進行了該種疾病患病情況調(diào)查,所得數(shù)據(jù)資料見表6-1中的第(1)、(2)欄。試分析其家族集聚性。,,如果該社區(qū)的此種疾病存在家族集聚性,則以每戶3口人的家庭為樣本,在3個家庭成員中,出現(xiàn)X(=0,1,2,3)個成員患病的概率分布即不服從二項分布。為此,可作如下假設檢驗。H0:該疾病的發(fā)生無家族集聚性H1:該疾病的發(fā)生有家族集聚
20、性 =0.10,本例調(diào)查的總?cè)藬?shù)為:N=82×3=246(人)其中患病人數(shù)為:D=0×26+1×10+2×28+3×18=120(人)以這246人的患病率估計總體的患病率,即π=D/N=120/246=0.49。,在n=3、π=0.49時,利用二項分布,求得X=0,1,2,3的概率P(X),并以此得到相應的理論戶數(shù)。對理論戶數(shù)與實際戶數(shù)進行擬合優(yōu)度(goodness
21、of fit)的檢驗。此時,自由度=組數(shù)-2=4-2=2。計算結果列于表6-1中的第(3)至(7)欄。,以υ=2 χ2=42.95 查附表8,P<0.005。按 α=0.10水準,拒絕H0,接受H1,及此項疾病存在家族聚集性。,(五) 群檢驗 在工作中有時會遇到需對收集的一大批標本進行實驗室檢驗,以了解其陽性率的問題。但要在實驗室對所有標本一一作陽性認定往往需要大量的人力和物力,也不切實際,使用所謂的群檢驗技術即可解決
22、這一問題。,群檢驗的具體做法是,將N個標本分成n群,每群m個標本,即N=mn。每個群都送試驗室檢驗是否為陽性群。對于某群,一旦檢驗出陽性標本就停止此群中剩余標本的檢驗,該群即為陽性群。顯然,只有對陰性群,才需檢驗群中所有的m個標本,這樣可大大地減少檢驗標本的個數(shù)。,N個標本,n個群,試驗陽性,m個標本,試驗陰性,陽性群,停止,每例都檢驗,,,,,,,若記每個標本為陽性的概率為π,則1-π=QQ是每個標本為陰性的概率,Qm便是某群m個標
23、本均為陰性的概率,即一個群為陰性群的概率,而1- Qm就是一個群為陽性群的概率。假定受檢的n個群中有X個群是陽性群,用X/n作為一個群為陽性群概率的估計值,于是便有,這樣,陽性概率π的估計值為:,利用公式可估計某一地區(qū)某種病毒對生物的總體感染率,也可用于混合樣品(mixed sample)的分析。,第二節(jié) Poisson分布,Poisson分布(Poisson distribution)作為二項分布的一種極限情況,已發(fā)展成為描述小概率
24、事件發(fā)生規(guī)律性的一種重要分布。Poisson分布是描述單位面積、體積、時間、人群等內(nèi)稀有事件(或罕見事件)發(fā)生數(shù)的分布。,醫(yī)學上:諸如人群中遺傳缺陷、癌癥等發(fā)病率很低的非傳染性疾病的發(fā)病或患病人數(shù)的分布, 單位時間內(nèi)(或單位空間、容積內(nèi))某罕見事件發(fā)生次數(shù)的分布,如分析在單位面積或容積內(nèi)細菌數(shù)的分布,在單位空間中某種昆蟲或野生動物數(shù)的分布等。,所謂隨機變量X服從Poisson分布,是指在足夠多的n次獨立Bernoulli
25、試驗中,取值X的概率為,,一、Poisson分布的適用條件和性質(zhì),(二) Poisson分布的性質(zhì)1. 總體均數(shù) 與總體方差 相等是Poisson分布的重要特征。2. 當n很大,而π很小,且nπ= 為常數(shù)時,二項分布近似Poisson分布。3. 當 增大時,Poisson分布漸近正態(tài)分布。一般而言, ≥20時,Poisson分布資料可作為正態(tài)分布處理。,4. Poisson分布具備可加性。即對于服從Poiss
26、on分布的m個互相獨立的隨機變量X1,X2,……,Xm,它們之和也服從Poisson分布,且其均數(shù)為這m個隨機變量的均數(shù)之和。,(三) Poisson分布的圖形不同的參數(shù) 對應不同的Poisson分布,即 的大小決定了Poisson分布的圖形特征,見圖6-3。 當 越小,分布就越偏態(tài);當 越大時,Poisson分布則越漸近正態(tài)分布。當 ≤1時,隨X取值的變大,P(X)值反而變?。划?>1 時,隨X
27、取值的變大,P(X)值先增大而后變小。如若 是整數(shù),則P(X)在X= 和X= -1位置取得最大值。,二、Poisson分布的應用(一)總體均數(shù)的區(qū)間估計利用服從Poisson分布的樣本資料可估計其總體均數(shù) 的可信區(qū)間。估計方法如下:1. 查表法 對于獲得的樣本計數(shù)X,當X≤50時,直接查附表7的Poisson分布可信區(qū)間表,即可得到其總體均數(shù)的95%或99%可信區(qū)間。,例6
28、-10 某工廠在環(huán)境監(jiān)測中,對一實施了技術改造的生產(chǎn)車間作空氣中粉塵濃度的檢測,1立升空氣中測得粉塵粒子數(shù)為21。假定車間空氣中的粉塵分布均勻,試估計該車間平均每立升空氣中所含粉塵顆粒數(shù)的95%和99%可信區(qū)間。本例,X=21,查查附表7,該車間平均每立升空氣所含粉塵顆粒數(shù)的95%可信區(qū)間為13.0~32.0; 99%可信區(qū)間為11.0~35.9。,2. 正態(tài)近似法 當X>50時,可采用正態(tài)近似法估計總體均數(shù)的
29、 可信區(qū)間,計算公式為:如: 的95%可信區(qū)間為,例6-11 某研究者對某社區(qū)12000名居民進行了健康檢查,發(fā)現(xiàn)其中有68名胃癌患者。估計該社區(qū)胃癌患病數(shù)的95%和99%可信區(qū)間。,(二) 樣本均數(shù)與總體均數(shù)的比較對于Poisson分布資料而言,進行樣本均數(shù)與總體均數(shù)的比較有兩種方法。1. 直接法 當總體均數(shù) <20時,可采用直接計算概率的方式對樣本均數(shù)與已知總體均數(shù)間的差別進行有無統(tǒng)計學意義的比較
30、,這實質(zhì)上是對以樣本計數(shù)X為代表的總體率π與已知的總體率π0是否有差別進行推斷。,例6-12 一般人群先天性心臟病的發(fā)病率為8‰,某研究者為探討母親吸煙是否會增大其小孩的先天性心臟病的發(fā)病危險,對一群20~25歲有吸煙嗜好的孕婦進行了生育觀察,在她們生育的120名小孩中,經(jīng)篩查有4人患了先天性心臟病。試作統(tǒng)計推斷。,2、正態(tài)近似法 根據(jù)Poission分布的性質(zhì),當λ≥20時,可用正態(tài)分布來近似。樣本計數(shù)X與已知均數(shù)λ的比較,采
31、用下式計算標準正態(tài)檢驗統(tǒng)計量。,例6-13 有研究表明,一般人群精神發(fā)育不全的發(fā)生率為3‰,今調(diào)查了有親緣血統(tǒng)婚配關系的后代25000人,發(fā)現(xiàn)123人精神發(fā)育不全,問有親緣血統(tǒng)婚配關系的后代其精神發(fā)育不全的發(fā)生率是否要高于一般人群?可以認為人群中精神發(fā)育不全的發(fā)生數(shù)服從Poisson分布。本例n=25000,X=123,π0=0.003, =nπ0=25000×0.003=75。,(三) 兩個樣本均數(shù)的比較對服從Poi
32、sson分布的樣本,其樣本計數(shù)可看作是樣本均數(shù)。兩個樣本均數(shù)的比較,目的在于推斷兩樣本所代表的兩總體均數(shù)是否有差別。設兩個樣本計數(shù)分別為X1和X2,可利用正態(tài)近似法進行比較。,1. 兩個樣本的觀察單位數(shù)相等,即n1=n2 。,2. 兩個樣本的觀察單位數(shù)不相等,即n1 ≠ n2 。,例6-14 某衛(wèi)生檢疫機構對兩種純凈水各抽驗了1ml水樣,分別培養(yǎng)出大腸桿菌4個和7個,試比較這兩種純凈水中平均每毫升所含大腸桿菌數(shù)有無差別?本例水樣
33、中的大腸桿菌數(shù)服從Poisson分布,兩種水樣的觀察單位數(shù)相等,即均為1ml。兩樣本計數(shù)分別記為X1=4和X2=7,X1+X2=7+4=11。選擇公式(6-21)來計算檢驗統(tǒng)計量。,例6-15 某研究者為了分析一種罕見的非傳染性疾病發(fā)病的地域差異,對甲地區(qū)連續(xù)觀察了四年,發(fā)現(xiàn)有32人發(fā)病;對乙地區(qū)連續(xù)觀察了三年,發(fā)現(xiàn)有12人發(fā)病。假定甲、乙兩地區(qū)在觀察期內(nèi)的人口構成相同,人口基數(shù)相近且基本不變,試作統(tǒng)計推斷。,本例中疾病的發(fā)病人數(shù)服從
34、Poisson分布,但對甲地區(qū)連續(xù)觀察了四年(n1=4),而對乙地區(qū)只連續(xù)觀察了三年(n2=3),即兩個樣本的觀察時間單位數(shù)不相等。甲、乙兩地區(qū)在觀察期內(nèi)的發(fā)病人數(shù)分別記為X1=32和X2=12,X1+X2=32+12=44。選擇公式(6-22)來計算檢驗統(tǒng)計量。,總 結1. 二項分布常用于描述變量的結果只有兩種的出現(xiàn)規(guī)律,2.泊松分布可看成是二項分布的特例,用于小概率事件的發(fā)生規(guī)律,當然泊松分布專用于空間散點試驗模型的出現(xiàn)規(guī)律
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 統(tǒng)計學第六章--變異指標
- 統(tǒng)計學原理第六章--統(tǒng)計指數(shù)1
- 統(tǒng)計學06第六章-抽樣調(diào)查
- 統(tǒng)計學第六章作業(yè)參考答案
- 長江大學統(tǒng)計學原理第六章-統(tǒng)計指數(shù)
- 非參數(shù)統(tǒng)計學講義(第六章)講稿2
- 離散數(shù)學第六章)
- 離散數(shù)學第六章
- 第六章統(tǒng)計指數(shù)
- 概率統(tǒng)計第六章
- 第六章 抽樣分布
- 第六章 統(tǒng)計指數(shù)
- 第六章(三)常用連續(xù)型隨機變量的理論分布
- 離散數(shù)學第六章 1
- 第六章 變量之間的關系說課稿
- 第六章定積分及其應用
- 第六章微分學基本定理及其應用
- 第六章-定積分及其應用
- 第六章-長沙醫(yī)學院
- 植物學 第六章
評論
0/150
提交評論