版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、《抽樣技術(shù)》第二章,王學民 編,第二章 簡單隨機抽樣,§2.1 簡單隨機抽樣的概念§2.2 總體均值(或總值)的估計§2.3 總體比例的估計§2.4 樣本容量的確定§2.5 逆抽樣,§2.1 簡單隨機抽樣的概念,一、簡單隨機抽樣的定義二、簡單隨機抽樣的抽選三、符號和定義,一、簡單隨機抽樣的定義,簡單隨機抽樣——從容量為N的有限總體中抽取n個單元,使
2、得所有不同的樣本每一個被抽中的概率相等。所得的樣本稱為簡單隨機樣本。共有 個不同的樣本,每一個樣本被抽中的概率 為 。任一個單元被選入樣本的概率均為n/N。但不能將“每一個單元被選入樣本的概率皆相等”作為簡單隨機抽樣的定義。,,實踐中,簡單隨機抽樣一般是通過不放回地逐個從總體中等概率抽取單元來實現(xiàn)的,故通常將其稱為不放回的簡單隨機抽樣。若抽樣是有放回地逐個等概率抽取的,則稱為放回的簡單隨機抽樣。
3、當n/N很小時,放回與不放回的抽樣幾乎給出相同的結(jié)果。在實際應(yīng)用中,一般都采用不放回抽樣。,例2.1,設(shè)總體有5個單元(1, 2, 3, 4, 5),按放回簡單隨機抽樣的方式抽取2個單元,則所有可能的樣本為25個(考慮樣本單元的順序):,例2.2,設(shè)總體有5個單元(1,2,3,4,5),按不放回簡單隨機抽樣的方式抽取2個單元,則所有可能的樣本為10個:,二、簡單隨機抽樣的抽選,首先將容量為N的有限總體中的所有單元從1到N編好號碼,然后
4、從這N個編號中抽取n個。具體的抽取方式一般有: (1)抽簽法; (2)隨機數(shù)表法; (3)計算機產(chǎn)生偽隨機數(shù)法。,隨機數(shù)表法,隨機數(shù)表是由0, 1, 2, ?, 9這十個數(shù)字組成的,書中表3.2給出了由2500個一位數(shù)字組成的隨機數(shù)表。這個隨機數(shù)表是這樣產(chǎn)生的:在這2500個位置上分別獨立地做一次等可能地產(chǎn)生0, 1, 2, ?, 9的隨機試驗。因此,在任意一個位置上0~9這十個數(shù)字出現(xiàn)的可能性都相同,在任意兩個位置
5、上00~99這一百個數(shù)字出現(xiàn)的可能性也都是相同的,在任意三個位置上000~999這一千個數(shù)字出現(xiàn)的可能性也都是相同的,依次類推。,例1,設(shè)總體中的所有個體編號從1到N,試在以下三種情況下分別抽取一個容量為n的簡單隨機樣本。 (1)N=63,n=10,不放回抽樣; (2)在(1)中放回抽樣; (3)N=247,n=7,不放回抽樣。,三、符號和定義,組成總體的N個單元的標志值:Y1,Y2, ?,YN ; 樣本中n個
6、單元的標志值:y1,y2, ?,yn。總體總值: ;總體均值: 樣本總值: ;樣本均值:,方差的定義,對有限總體,總體方差通常定義為習慣上我們使用形式,抽樣的興趣,通常,抽樣的興趣都集中于總體的四項標志: ⑴ 均值 ; ⑵ 總值Y ; ⑶ 具有某一特征的單元所占的比例P(或所占的總數(shù)A=NP); ⑷ 兩個總值的比率或兩個均值的比 :,比率的例
7、子,(1)調(diào)查某地區(qū)居民家庭食品消費支出占家庭收入的比重。令 Xi——第i個家庭的家庭收入Yi——第i個家庭的食品消費支出 i=1,2,?,N家庭食品消費支出占家庭收入的比重為,比率的例子,(2)在住戶調(diào)查中,要估計每個成年女子化妝品的平均費用。令Xi——第i個家庭的成年女子數(shù)Yi——第i個家庭成年女子化妝品的總費用 i=1,2,?,N每個成年女子化妝品的平均費用為,比率的例子,(3)在某住宅小區(qū)的房
8、價調(diào)查中,要估計該小區(qū)的平均房屋單價。令 Xi——第i套住宅的建筑面積 Yi——第i套住宅的市場價格 i=1,2,?,N該小區(qū)的平均房屋單價為,§2.2 總體均值(或總值)的估計,定理1 樣本均值 是總體均值 的無偏估計。證明 方法一:,,方法二: 令 則,,推論1 是總體總值Y的無偏估計。定理2
9、 。其中f =n/N稱為抽樣比; 1? f 對方差, 對標準誤都稱為有限總體的校正系數(shù)。證明 令,,,,,,,公式 的說明,,,推論2 的標準誤推論3 作為總體總值Y的估計量, 的方差是推論4 的標準誤,,定理3 對簡單隨
10、機樣本,樣本方差 是總體方差 的無偏估計。 證明 令,,,例1,考慮從一個N=6的總體中抽取n=3的樣本,設(shè)這6個單元的值分別為Y1=21, Y2=12, Y3=15, Y4=24, Y5=6, Y6=18則 。,,,,可用s來估計S,但它是有偏的,n較大時這個偏差一般可以忽略。推論5 和 的方差的無偏估計是我
11、們?nèi)∽鳛?的估計量,它們是有偏的。,樣本均值分布的正態(tài)近似,對有限總體的不放回抽樣,哈杰克(Hajek)在1960年給出了樣本均值 的分布趨于正態(tài)的充分條件。一般地,當n≥30時可認為 。,置信區(qū)間,現(xiàn)假定 ,給定置信度1?α,可得均值 和總值Y的置信區(qū)間:當n >50時,tα/
12、2(n?1)可由uα/2代替。,,例2,為估計某中學300名新生的平均身高,從中抽取了10名進行測量,得數(shù)據(jù)(單位:厘米)為158, 149, 156, 153, 160, 151, 157, 145, 152, 159。試問是否求得出平均身高的置信區(qū)間?如何求?解,例3,下頁表列出美國1940年197個城市的居民數(shù),分別按下述抽樣方案估計197個城市的居民總數(shù),請算出估計量的標準差:(1)容量為50的簡單隨機樣本;(2)含有
13、5個最大的城市。并從其余192個城市中抽出容量為45的簡單隨機樣本;(3)含有9個最大的城市,并從其余188個城市中抽出容量為41的簡單隨機樣本。,,城市大小的頻數(shù)分布,,,*例4,為了估計學校上月用于教學的開支,從學校的2389項開支中抽取185項,得一簡單隨機樣本。經(jīng)分析,185項中有160項與教學有關(guān)。用z表示這160項開支的數(shù)值(單位:千元),經(jīng)計算試求學校上月用于教學的總開支的點估計、標準誤估計和0.95置信區(qū)間。,
14、,解 令,,0.95置信區(qū)間:,*例5,通??梢哉J為Y1是很小的,YN是很大的。1972年薩倫達爾(Sarndal)檢驗了下述 的估計量 其中c是一個常數(shù)。證明薩倫達爾的結(jié)果: (1) 是無偏的; (2) 。,,證明(1)令(2)提示,§2.3 總體比例的估計,設(shè)總體容量為N,其中具有某一特征的單元數(shù)為A,總體比例為P=A/N?,F(xiàn)從總體中抽取一個容量為n的
15、簡單隨機樣本,又設(shè)樣本中具有某一特征的單元數(shù)為a,樣本比例為p=a/n。定理4 樣本比例p=a/n是總體比例P=A/N的無偏估計。,,證明 令推論6 是A的無偏估計。定理5 p的方差是 其中Q=1?P。,,證明 令 于是,,推論7 的方差是定理6 p的方差V(p)的無偏估計是其中q=1?p。,,證明 令,,推論8
16、 的方差 的無偏估計是當n很大,p和q都不太小時,由中心極限定理知,p近似服從正態(tài)分布。由此可以構(gòu)造出P的1-α置信區(qū)間:其中 是連續(xù)性的校正項;A=NP的1-α置信區(qū)間:,例6,從一份共有3042人的人名錄中隨機抽200人,發(fā)現(xiàn)38人的地址已變動,試對這份人名錄中需要修改的地址總數(shù)作出點估計和95%的置信區(qū)間。,,解,§2.4 樣本容量的確定,精度與費用之間是一
17、對矛盾。一般地,調(diào)查所要求的精度越高,調(diào)查所需的費用也就越大。最簡單的一種費用函數(shù)是:C=c0+cn ,這時,確定C?確定n。本節(jié)討論在精度給定的條件下如何來確定n。,,估計總體均值時樣本容量的確定,設(shè)V是一事先給定的值,若要求滿足 (或 ),則所需的樣本容量當 很小時,可近似地表示為n≥n0(或n=n0)。當用 來估計 時,估計的絕對誤差是
18、 ,而相對誤差是 ,它們都是隨機變量。,,給定置信度1?α,稱d為絕對誤差限,稱r為相對誤差限,且 。當n足夠大時, 。在確定n之前,先假定求出的n會足夠大,使得 ,這時有 其中 稱為 的變異系數(shù)。 其中cv是
19、總體的變異系數(shù),稱cv2為總體的相對方差。,例7,為調(diào)查學生購書支出,某高校在全校6000名大學生中按簡單隨機抽樣抽出80名學生,調(diào)查了他們最近一個學期用于購書支出后,得到 (元),s2=13712,試估計該校大學生最近一個學期用于購書的總支出,并給出估計的標準差。如果在95%置信度下,估計的相對誤差限不超過10%,則應(yīng)該抽出多少學生進行調(diào)查?,,解,估計總體比例時樣本容量的確定,可推得,設(shè)計效應(yīng),為比較不同
20、抽樣設(shè)計的效率,基什(L.Kish)提出一個稱為設(shè)計效應(yīng)的量。deff=所考慮抽樣設(shè)計估計量的方差/相同樣本容量下簡單隨機抽樣估計量的方差設(shè)計效應(yīng)值愈大,表明它的效率愈低。若deff>1,表明所考慮的抽樣設(shè)計的效率不如簡單隨機抽樣;若deft<1,則表明該抽樣設(shè)計的效率比簡單隨機抽樣高。,,放回簡單隨機抽樣的設(shè)計效應(yīng)為設(shè)計效應(yīng)在實際中還有一個十分重要的作用,即用于確定樣本容量。一種設(shè)計要達到與(不放回)簡單隨機抽樣
21、同樣的精度(相等的方差),它的樣本容量恰應(yīng)是簡單隨機抽樣的deff倍。,,抽樣前未知參數(shù)的估計,一般來說, , S2, P皆未知,要算出n,必須先要對 S2(或P)作出點估計。常用的簡單方法有: ⑴ 分兩步抽取樣本,先抽取一個容量為n1的較小樣本,用來估計 S2(或P),計算出n后,再抽一個容量為n?n1的樣本; ⑵ 從以往同一總體或同類總體的研究中得出S2(或P)的估計值; ⑶ 根據(jù)經(jīng)驗,給出一個足夠大的n。,估
22、計總體比例時樣本容量的放大,,§2.5 逆抽樣,當用 來估計P時,若給定r值,則所需的樣本容量。當P很小時,所需的n很大,這時在抽取樣本之前精確地估計P非常重要,而這往往難以做到,因而n難以確定。逆抽樣就是一直抽到第m個具有某特征的單元出現(xiàn)為止。樣本容量 是一個隨機變量,P的一個無偏估計是,,當N很大,P較小,m≥10時,例8 使用逆抽樣,當P較小時,若要求估計量的變異系數(shù)不超過2
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論