第02章--計(jì)量資料的統(tǒng)計(jì)描述正式_第1頁(yè)
已閱讀1頁(yè),還剩87頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、1,計(jì)量資料的統(tǒng)計(jì)描述Statistical Description of Measurement Data,第2章,蔣紅衛(wèi)Email: JHWCCC@21CN.COM,2,講課內(nèi)容:,1. 頻數(shù)分布2. 集中趨勢(shì)的描述3. 離散趨勢(shì)的描述4. 正態(tài)分布5. 醫(yī)學(xué)參考值范圍的制定,3,第一節(jié)頻 數(shù) 分 布,Frequency Distribution,4,個(gè)體變異,個(gè)體變異(individual variatio

2、n)是同質(zhì)觀察對(duì)象間表現(xiàn)出的差異。變異是生物體在一種或多種、已知或未知的不可控因素作用下所產(chǎn)生的綜合反映。就每個(gè)觀察單位而言,其觀察指標(biāo)的變異是不可預(yù)測(cè)的,或者說(shuō)是隨機(jī)的(random)。就總體而言,個(gè)體變異是有規(guī)律的。,5,個(gè)體變異是統(tǒng)計(jì)學(xué)應(yīng)用的前提,個(gè)體變異,抽樣誤差,統(tǒng)計(jì)推斷,例2-1 138名成年女子的紅細(xì)胞數(shù),一、頻數(shù)分布表(frequency table),7,頻數(shù)分布表,將變量值化為若干個(gè)組段,清點(diǎn)并記錄各組段變量

3、值的個(gè)數(shù),稱為頻數(shù)表了解變量值的分布情況,表2-1 138名成年女子的紅細(xì)胞數(shù)的頻數(shù)分布表,(1)求極差(range):即最大值與最小值之差,又稱為全距。R=5.46 –3.07 =2.39(2) 確定組段數(shù)和組距:根據(jù)研究目的和樣本含量n確定分組組數(shù),通常分為10~15個(gè)組。組距=極差/組數(shù),為方便計(jì),組距為極差的十分之一, 再略加調(diào)整。2.39/12=0.199 ≈0.20 (3) 列出組段:第一組段的下限略小于最

4、小值,最后一個(gè)組段上限必須包含最大值。3.07~ 3.27~ …… 5.07~ 5.27~5.47(4) 分組劃記并統(tǒng)計(jì)頻數(shù):用劃記法將所有數(shù)據(jù)歸納到各組段,得到各組段的頻數(shù)。,頻數(shù)表的編制步驟,二、頻數(shù)分布圖(graph of frequency distribution),138名成年女子的紅細(xì)胞數(shù)的頻數(shù)分布,三、頻數(shù)表和頻數(shù)分布圖用途,1.描述頻數(shù)分布的類型正態(tài)分布正(右)偏態(tài)分布,負(fù)(左)

5、偏態(tài)分布2. 描述頻數(shù)分布特征變異范圍分布規(guī)律(集中位置、頻率分布)3. 便于發(fā)現(xiàn)資料中的可疑值4. 便于計(jì)算有關(guān)指標(biāo),進(jìn)一步做統(tǒng)計(jì)分析,三、頻數(shù)表和頻數(shù)分布圖用途,1.描述頻數(shù)分布的類型(對(duì)稱分布、偏態(tài)分布) (1)對(duì)稱分布 :若各組段的頻數(shù)以中心位置左右兩側(cè)大體對(duì)稱,就認(rèn)為該資料是對(duì)稱分布,是否為對(duì)稱分布?,是否為對(duì)稱分布?,(2)偏態(tài)分布 : 1)右偏態(tài)分布(正偏態(tài)分布):右側(cè)的組段數(shù)多于左側(cè)的組段數(shù)

6、,頻數(shù)向右側(cè)拖尾。,表2-2 115名正常成年女子血清轉(zhuǎn)氨酶(mmol/L)含量分布,左偏態(tài)分布(負(fù)偏態(tài)分布):,左側(cè)的組段數(shù)多于右側(cè)的組段數(shù),頻數(shù)向左側(cè)拖尾。,表2-3 101名正常人的血清肌紅蛋白含量分布,2.描述頻數(shù)分布的特征,表2-1數(shù)據(jù)的頻數(shù)分布特征:①數(shù)據(jù)變異(離散)的范圍在57~84 (次/分 )②數(shù)據(jù)集中(平均)的組段在68~73 (次/分)之間,尤以組段的人數(shù)71~(次/分)最多。且上下組段的頻數(shù)分布基本對(duì)

7、稱。,,,,3.便于發(fā)現(xiàn)一些特大或特小的可疑值,,4.便于進(jìn)一步做統(tǒng)計(jì)分析和處理,21,第二節(jié)集中趨勢(shì)的描述,Description of Central Tendency,22,平均數(shù)(average),平均數(shù):描述一組同質(zhì)變量值中心位置或平均水平主要有:算術(shù)均數(shù)幾何均數(shù)中位數(shù),一、算術(shù)均數(shù),簡(jiǎn)稱均數(shù)(mean), 樣本均數(shù), 總體均數(shù)可用于反映一組呈對(duì)稱分布

8、的變量值在數(shù)量上的平均水平或者說(shuō)是集中位置的特征值。均數(shù)的幾何意義:代表每組觀察值的平衡點(diǎn),即重心。如1,4,7,8的均數(shù)為5.均數(shù)重要特性:,公式 :,例:138名正常成年女子紅細(xì)胞數(shù)的均數(shù),(1)直接計(jì)算法,(2)頻數(shù)表 (加權(quán)法 weighted means):,公式 :,,k:頻數(shù)表的組段數(shù), f :頻數(shù), X:組中值。,表2-2 138名正常成年女子紅細(xì)胞數(shù)的頻數(shù)分布表,應(yīng)用,均數(shù)適用于對(duì)稱分布,特別

9、是正態(tài)分布資料。,二、 幾何均數(shù)(geometric mean),可用于反映一組經(jīng)對(duì)數(shù)轉(zhuǎn)換后呈對(duì)稱分布或正態(tài)分布的變量值在數(shù)量上的平均水平。,(1)直接計(jì)算法,,,幾何均數(shù):變量對(duì)數(shù)值的算術(shù)均數(shù)的反對(duì)數(shù)。,,其他對(duì)數(shù)(如自然對(duì)數(shù))變換獲得相同的幾何均數(shù),例2-4 某地5例微絲蚴血癥患者治療七年后用間接熒光抗體試驗(yàn)測(cè)得其抗體滴度倒數(shù)分別為,10,20,40,40,160,求幾何均數(shù)。,(2)加權(quán)法,公式:,例2-6 69例類風(fēng)濕關(guān)節(jié)

10、炎(RA)患者血清EBV-VCA-lgG抗體滴度的分布見(jiàn)表2-4第(1)、(2)欄,求其平均抗體滴度。,2、應(yīng)用:,適用于成等比數(shù)列的資料,特別是服從對(duì)數(shù)正態(tài)分布資料。,三、  中位數(shù)與百分位數(shù),11個(gè)大鼠存活天數(shù):4,10,7,50,3,15,2,9,13,>60,>60平均存活天數(shù)?(一)中位數(shù)(median) 是將每個(gè)變量值從小到大排列,位置居于中間的那個(gè)變量值。,計(jì)算,

11、公式: n為奇數(shù)時(shí) n為偶數(shù)時(shí),例2-6 7名病人患某病的潛伏期分別為2,3,4,5,6,9,16天,求其中位數(shù)。,例2-7 8名患者食物中毒的潛伏期分別為1,2,2,3,5,8,15,24小時(shí),求其中位數(shù)。,應(yīng)用,1、各種分布類型的資料2、特別適合大樣本偏態(tài)分布資料或者一端或兩端無(wú)確切數(shù)值的資料。,Px是一個(gè)界值,將全部變量值分為兩部分,在不包含Px的全部變量值中有X%的變量值比它小,有(100-X)%的變量值比它大。

12、50%分位數(shù)就是中位數(shù)25%,50%,75%分位數(shù)稱為四分位數(shù)(quartile),(二)百分位數(shù)(percentile),1.直接計(jì)算法,設(shè)有n個(gè)原始數(shù)據(jù)從小到大排列,第X百分位數(shù)的計(jì)算公式為:當(dāng) 為整數(shù)時(shí): 當(dāng) 為帶有小數(shù)位(g)時(shí):,例 對(duì)某醫(yī)院細(xì)菌性痢疾治愈者的住院天數(shù)統(tǒng)計(jì),119名患者的住院天數(shù)從小到大排列如下,試求第5百分位數(shù)和第99百分位數(shù)。,

13、患 者:住院天數(shù): (1)n+1=120, ,為整數(shù):(2) ,帶有小數(shù),,2.頻數(shù)表法,公式:,,,,,Lx: Px所在組下限ix: Px所在組組距fx: Px所在組頻數(shù)∑fL: 小于Px所在組的各組累計(jì)頻數(shù),當(dāng) 時(shí),公式(2-9)即為中位數(shù)的計(jì)算公式

14、,例 某地118名鏈球菌咽喉炎患者潛伏期。,5344.9%50%24 5965.3%,P25=36+12/32x[(118x25%-21)]=39.2(天)P75=60+12/18x[(118x75%-77)]=67.7(天),應(yīng)用平均數(shù)的注意事項(xiàng),,,,,同質(zhì)的資料計(jì)算平均數(shù)才有意義均數(shù)適用于單峰對(duì)稱分布的資料幾何均數(shù)適用于對(duì)數(shù)變換后單峰對(duì)稱分布資料中位數(shù)適用于任何單峰分布資

15、料中位數(shù)和百分位數(shù)在樣本含量較小時(shí)不穩(wěn)定,越靠?jī)啥嗽讲环€(wěn)定大樣本時(shí),中位數(shù)在抗極端值的影響方面,比均數(shù)具有較好的穩(wěn)定性,但不如均數(shù)精確;當(dāng)資料適合計(jì)算父親數(shù)或幾何均數(shù)時(shí),不宜用中位表示其平均水平。,只用平均數(shù)描述計(jì)量資料的弊端,,,,,It has been said that a fellow with one leg in frozen ice and the other leg in boiling water is com

16、fortable ON AVERAGE!一條平均水深1.0米的河流比一個(gè)平均水深1.5米的游泳池安全!兩組平均30歲的人均為年輕人?。ㄒ唤M10人均為30歲,另一組5人為59歲,5人為1歲),48,第三節(jié)離散趨勢(shì)的描述,Description of Dispersed Tendency,例2-11 三組同齡男孩的身高(cm),甲組 90 95 100 105 110 100 乙組 96 9

17、8 100 102 104 100丙組 96 99 100 101 104 100,,,,,引起同質(zhì)事物差異的原因主要是個(gè)體變異,其次是測(cè)量誤差描述計(jì)量資料數(shù)據(jù)間離散程度的指標(biāo)極差、四分位數(shù)間距離均差平方和、方差、標(biāo)準(zhǔn)差變異系數(shù),一、極差(R, range),,,,,R=最大值-最小值甲組 90 95 100 105 110 100 R=20

18、cm乙組 96 98 100 102 104 100 R= 8cm丙組 96 99 100 101 104 100 R= 8cm意義:R值越大,表示該組數(shù)據(jù)的變異越大優(yōu)點(diǎn):計(jì)算簡(jiǎn)單缺點(diǎn):數(shù)據(jù)利用不全,部分信息損失;在例數(shù)少時(shí),結(jié)果不穩(wěn)定,二、四分位數(shù)間距(QR, quartiel range),,,,,P0P25P50P75P1

19、00,第一四分位數(shù)第二四分位數(shù)第三四分位數(shù),QR,,P25=36+12/32x[(118x25%-21)]=39.2(天)P75=60+12/18x[(118x75%-77)]=67.7(天),作為變異指標(biāo)比極差穩(wěn)定常用于描述偏態(tài)分布資料的離散情況表示方法:M(QR) 51(28.5)天,例 某地118名鏈球菌咽喉炎患者潛伏期。,三、方差和標(biāo)準(zhǔn)差(variance and standard deviation)

20、,,,,,離均差平方和總體方差總體標(biāo)準(zhǔn)差,三、方差和標(biāo)準(zhǔn)差(variance and standard deviation),,,,,離均差平方和總體方差總體標(biāo)準(zhǔn)差樣本標(biāo)準(zhǔn)差,,,樣本標(biāo)準(zhǔn)差,,,,,三組同齡男孩的身高值(cm)甲組 90 95 100 105 110 100 R=20 S=7.91乙組 96 98 100 102 104 1

21、00 R= 8 S=3.16丙組 96 99 100 101 104 100 R= 8 S=2.92意義:反映一組同質(zhì)變量值與其均數(shù)的間距,故標(biāo)準(zhǔn)差全面地、平均地描述了變量值的離散程度單位相同時(shí),S較大,表示該組變量值的分布較分散、波動(dòng)較大,同時(shí)表示該組均數(shù)對(duì)本組數(shù)據(jù)的代表性較差。S較小,則反之。,表2-2 138名正常成年女子紅細(xì)胞數(shù)的頻數(shù)分布表,四、變異系

22、數(shù)(CV, coefficient of variation),,,,,相對(duì)變異指標(biāo)適用情況:觀測(cè)指標(biāo)單位不同觀測(cè)指標(biāo)單位相同,但均數(shù)相差懸殊意義:CV越大,表示數(shù)據(jù)變異越大。常用于衡量方法、儀器的精密度。,1.單位不同時(shí)組間變異程度的比較。,某地7歲年齡組男童身高與體重 指標(biāo) S CV(%)身高(cm

23、) 123.10 4.71 3.83體重(kg) 22.29 2.26 10.14結(jié)論: 7歲年齡組男童身高與體重值指標(biāo)比較,體重指標(biāo)的變異大于身高指標(biāo)。,,,,某地不同年齡組男童身高(cm)年齡組 S CV%1-2月 56.3 2.1 3.7

24、35-6月 66.5 2.2 3.313-3.5歲 96.1 3.1 3.225-5.5歲 107.8 3.3 3.06結(jié)論:隨著年齡增加,身高的變異變小。,2.比較組單位相同,但均數(shù)相差懸殊的組間變異程度比較,,,,計(jì)量數(shù)據(jù)的統(tǒng)計(jì)描述小結(jié),1. 在醫(yī)學(xué)雜志中正態(tài)或近似正態(tài)的資料,常以形式

25、 表達(dá),描述和比較數(shù)據(jù)的平均水平和離散程度。 兩組患者年齡(歲)的比較組別 n 范圍值試驗(yàn)組 12 45.9 ± 3.7 35-57對(duì)照組 10 50.5 ± 13.0 18-83兩組患者基線情況的比

26、較,,,,,,,2.偏態(tài)分布或特定資料(生存時(shí)間、病程、潛伏期時(shí)間等)1)用中位數(shù)和四分位間距描述。表達(dá)形式:中位數(shù)(四分位數(shù)間距),M(QR)例2-9 :118名鏈球菌咽喉炎患者的中位潛伏期為51天,QR為28.5天。2)用百分位數(shù)的P25%、P50%、P75%描述分布位置。,3.等比數(shù)據(jù)和正偏態(tài)數(shù)據(jù)可用幾何均數(shù)和幾何標(biāo)準(zhǔn)差描述表達(dá)形式:G±SG,65,第四節(jié)正態(tài)分布,Normal Distribution,

27、,,,,正態(tài)分布首先由德國(guó)數(shù)學(xué)家A. De. Moivre于1733年提出;德國(guó)數(shù)學(xué)家Gauss發(fā)現(xiàn)稍晚,但他迅速應(yīng)用,故又稱Gauss分布隨機(jī)誤差服從正態(tài)分布醫(yī)學(xué)研究中許多事物的指標(biāo)服從或近似服從正態(tài)分布很多其他分布的極限為正態(tài)分布很多統(tǒng)計(jì)方法(t檢驗(yàn)、方差分析等)是建立在正態(tài)分布基礎(chǔ)之上的,,,,,正態(tài)分布最早由A. De. Moivre在求二項(xiàng)分布的漸近公式中得到。C. F. Gauss在研究測(cè)量誤差時(shí)從另一個(gè)角度導(dǎo)出了

28、它,這項(xiàng)工作對(duì)后世的影響極大現(xiàn)今德國(guó)10馬克的鈔票上印有高斯的頭像,同時(shí)還印有正態(tài)分布的密度曲線,Carl Friedich Gauss(1777-1855),頻數(shù)分布與正態(tài)分布曲線示意圖,f(X),一、正態(tài)分布的概念和特征,1.正態(tài)分布曲線的數(shù)學(xué)函數(shù)表達(dá)式:,e為自然數(shù),為圓周率X為連續(xù)隨機(jī)變量μ為X值的總體均數(shù),σ2為總體方差,記為X~ N(μ,σ2),(-?<X< ?),X服從的概率密度函數(shù)f(x),f(x),,記為:x

29、~N(μ=23,σ2=32),,F(x),,,2、正態(tài)分布曲線理論上的特征,(1)以X= μ為中心, X值呈鐘型分布對(duì)稱性減少。(2 )在 X= μ處,f(x)取最大值。(3 )正態(tài)分布由μ 、σ決定 正態(tài)分布的位置和形狀。μ為位置參數(shù)。隨μ 不同,曲線位置不同。σ為形狀參數(shù)。σ越大,曲線形狀不同。,,正態(tài)分布參數(shù)位置變化示意圖,,正態(tài)分布變異度不同變化示意圖,4.曲線下x值的分布面積有一定分布規(guī)律正態(tài)變量X的分布函數(shù),X軸與

30、正態(tài)曲線所夾面積恒等于1區(qū)間μ±σ的面積為68.27%區(qū)間μ±1.96σ的面積為95.00%區(qū)間μ±2.58σ的面積為99.00%,正態(tài)曲線下面積分布示意,二、 標(biāo)準(zhǔn)正態(tài)分布(standard normal distribution),,正態(tài)分布會(huì)隨著μ和σ的不同,其位置與形狀會(huì)發(fā)生較大變化。為了應(yīng)用方便,令:,u為標(biāo)準(zhǔn)化變量(無(wú)量綱),(-?<u< ?),X ~ N(μ,σ2)轉(zhuǎn)化為u~ N(0

31、,12),標(biāo)準(zhǔn)正態(tài)分布函數(shù),,表示從-∞到某u值范圍內(nèi)標(biāo)準(zhǔn)正態(tài)分布曲線下面積。附表1 Φ(-3)=0.0013 Φ(0)=0.5000 Φ(u)=1- Φ(-u),標(biāo)準(zhǔn)正態(tài)分布曲線,,已計(jì)算出138名正常成年女性的紅細(xì)胞數(shù)均數(shù)為4.23,標(biāo)準(zhǔn)差為0.45。試估計(jì)正常成年女性的紅細(xì)胞數(shù):1.在4.00以下者占正常成年女性總?cè)藬?shù)的百分比2.在4.00至5.00之間者占正常成年女性總?cè)藬?shù)

32、的百分比3.在5.00以上者占正常成年女性總?cè)藬?shù)的百分比,1.為30.50% 2.為65.14%3.為4.36%,u界值表,變量值分布 單側(cè) 雙側(cè)范圍(%) u值 u值80 0.84 1.2890

33、1.28 1.6495 1.64 1.9699 2.33 2.58,,,,81,第五節(jié)醫(yī)學(xué)參考值范圍的制定,Establishment of Medical Reference Range,一、概念,醫(yī)學(xué)參考值是指包括絕大多數(shù)“正常人”的各種生理及生化指標(biāo)

34、常數(shù),也稱正常值。由于存在個(gè)體差異,正常值并非常數(shù),而是在一定范圍內(nèi)波動(dòng),醫(yī)學(xué)上常用95%或99%的個(gè)體值波動(dòng)范圍作為判定正常或異常的參考標(biāo)準(zhǔn)。雙側(cè)界值:血清總膽固醇單側(cè)界值:血清轉(zhuǎn)氨酶(上側(cè)) 肺活量(下側(cè)),主要適用于正態(tài)或近似正態(tài)分布的變量,樣本量足夠大一般要對(duì)資料進(jìn)行正態(tài)性檢驗(yàn)雙側(cè) 參考值范圍公式:?jiǎn)蝹?cè) 參考值范圍公式:,,下限值,上限值

35、,,,,二、正態(tài)近似法,例 估計(jì)正常成年女子的紅細(xì)胞數(shù)的95%參考值范圍。因血紅細(xì)胞數(shù)過(guò)多或過(guò)少均為異常,故按雙側(cè)估計(jì)正常成年女性紅細(xì)胞數(shù)的95%參數(shù)值范圍。已知:計(jì)算95%的參考范圍(雙側(cè))結(jié)論:正常成年女子紅細(xì)胞數(shù)95%的參考值范圍為3.35-5.11(1012/L),,,,,三、百分位數(shù)法,適用于偏態(tài)分布資料樣本含量比正態(tài)分布法要多雙側(cè) 參考值范圍: 單側(cè) 參考值范圍

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論