數(shù)據(jù)分析方法假設(shè)檢驗(yàn)_第1頁
已閱讀1頁,還剩44頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、假設(shè)檢驗(yàn),在假設(shè)檢驗(yàn)中,一般要設(shè)立一個(gè)原假設(shè);而設(shè)立該假設(shè)的動(dòng)機(jī)主要是企圖利用人們掌握的反映現(xiàn)實(shí)世界的數(shù)據(jù)來找出假設(shè)和現(xiàn)實(shí)的矛盾,從而否定這個(gè)假設(shè)。,假設(shè)檢驗(yàn),在多數(shù)統(tǒng)計(jì)教科書中(除了理論探討之外),假設(shè)檢驗(yàn)都是以否定原假設(shè)為目標(biāo)。如否定不了,那就說明證據(jù)不足,無法否定原假設(shè)。但這不能說明原假設(shè)正確。,假設(shè)檢驗(yàn)的過程和邏輯,首先要提出一個(gè)原假設(shè),比如某正態(tài)總體的均值等于5(m=5)。這種原假設(shè)也稱為零假設(shè)(null hypothesis

2、),記為H0與此同時(shí)必須提出對立假設(shè),比如總體均值大于5(m>5)。對立假設(shè)又稱為備選假設(shè)或備擇假設(shè)(alternative hypothesis)記為記為H1或Ha,假設(shè)檢驗(yàn)的過程和邏輯,根據(jù)零假設(shè)(不是備選假設(shè)?。?,我們可以得到該檢驗(yàn)統(tǒng)計(jì)量的分布;然后再看這個(gè)統(tǒng)計(jì)量的數(shù)據(jù)實(shí)現(xiàn)值(realization)屬不屬于小概率事件。也就是說把數(shù)據(jù)代入檢驗(yàn)統(tǒng)計(jì)量,看其值是否落入零假設(shè)下的小概率范疇。如果的確是小概率事件,那么我們就有可能

3、拒絕零假設(shè),否則我們說沒有足夠證據(jù)拒絕零假設(shè)。,假設(shè)檢驗(yàn)的過程和邏輯,注意:零假設(shè)和備選假設(shè)在我們涉及的假設(shè)檢驗(yàn)中并不對稱。檢驗(yàn)統(tǒng)計(jì)量的分布是從零假設(shè)導(dǎo)出的, 因此, 如果有矛盾, 當(dāng)然就不利于零假設(shè)了。不發(fā)生矛盾也不說明備選假有問題。,假設(shè)檢驗(yàn)的過程和邏輯,檢驗(yàn)統(tǒng)計(jì)量在零假設(shè)下,這個(gè)樣本的數(shù)據(jù)實(shí)現(xiàn)值的概率稱為p-值(p-value)。顯然得到很小p-值意味著小概率事件發(fā)生了。如果小概率事件發(fā)生,是相信零假設(shè),還是相信數(shù)據(jù)呢?當(dāng)然是相

4、信數(shù)據(jù)。于是就拒絕零假設(shè)。但事件概率小并不意味著不會發(fā)生,僅僅發(fā)生的概率很小罷了。拒絕正確零假設(shè)的錯(cuò)誤常被稱為第一類錯(cuò)誤(type I error)。,假設(shè)檢驗(yàn)的過程和邏輯,不僅有第一類錯(cuò)誤,還有第二類錯(cuò)誤;那是備選零假設(shè)正確時(shí)反而說零假設(shè)正確的錯(cuò)誤,稱為第二類錯(cuò)誤(type II error)。如要“接受零假設(shè)”就必須給出第二類錯(cuò)誤的概率. 但對于目前面對的問題, 無法計(jì)算它.,假設(shè)檢驗(yàn)的過程和邏輯,零假設(shè)和備選假設(shè)哪一個(gè)正確,這是確

5、定性的,沒有概率可言。而可能犯錯(cuò)誤的是人。涉及假設(shè)檢驗(yàn)的犯錯(cuò)誤的概率就是犯第一類錯(cuò)誤的概率和犯第二類錯(cuò)誤的概率。負(fù)責(zé)的態(tài)度是無論做出什么決策,都應(yīng)該給出犯錯(cuò)誤的概率。,假設(shè)檢驗(yàn)的過程和邏輯,到底p-值是多小才能夠拒絕零假設(shè)呢?也就是說,需要有什么是小概率的標(biāo)準(zhǔn)。這要看具體應(yīng)用的需要。但在一般的統(tǒng)計(jì)書和軟件中,使用最多的標(biāo)準(zhǔn)是在零假設(shè)下(或零假設(shè)正確時(shí))抽樣所得的數(shù)據(jù)拒絕零假設(shè)的概率應(yīng)小于0.05(也可能是0.01,0.005,0.0

6、01等等)。,假設(shè)檢驗(yàn)的過程和邏輯,這種事先規(guī)定的概率稱為顯著性水平(significant level),用字母a來表示。當(dāng)p-值小于或等于a時(shí),就拒絕零假設(shè)。所以,a是所允許的犯第一類錯(cuò)誤概率的最大值。當(dāng)p-值小于或等于a時(shí),我們說這個(gè)檢驗(yàn)是顯著的(significant)。,假設(shè)檢驗(yàn)的過程和邏輯,歸納起來,假設(shè)檢驗(yàn)的邏輯步驟為:第一: 寫出零假設(shè)和備選假設(shè);第二: 確定檢驗(yàn)統(tǒng)計(jì)量;第三: 確定顯著性水平a;第四: 根據(jù)數(shù)據(jù)

7、計(jì)算檢驗(yàn)統(tǒng)計(jì)量的實(shí)現(xiàn)值;第五: 根據(jù)這個(gè)實(shí)現(xiàn)值計(jì)算p-值;第六: 進(jìn)行判斷:如果p-值小于或等于a,就拒絕零假設(shè),這時(shí)犯錯(cuò)誤的概率最多為a;如果p-值大于a,就不拒絕零假設(shè),因?yàn)樽C據(jù)不足。,假設(shè)檢驗(yàn)的過程和邏輯,實(shí)際上,計(jì)算機(jī)軟件僅僅給出p-值,而不給出a。這有很多方便之處。比如a=0.05,而假定我們得到的p-值等于0.001。這時(shí)我們?nèi)绻绻捎胮-值作為新的顯著性水平,即a=0.001,于是可以說,我們拒絕零假設(shè),顯著性水平為

8、0.001。拒絕零假設(shè)時(shí)犯錯(cuò)誤的概率實(shí)際只是千分之一而不是百分之五。在這個(gè)意義上,p-值又稱為觀測的顯著性水平(observed significant level)。在統(tǒng)計(jì)軟件輸出p-值的位置,有的用“p-value”,有的用significant的縮寫“Sig”就是這個(gè)道理。,假設(shè)檢驗(yàn)的過程和邏輯,關(guān)于“臨界值”的注:作為概率的顯著性水平a實(shí)際上相應(yīng)于一個(gè)檢驗(yàn)統(tǒng)計(jì)量取值范圍的一個(gè)臨界值(critical value),它定義為,統(tǒng)

9、計(jì)量取該值或更極端的值的概率等于a。也就是說,“統(tǒng)計(jì)量的實(shí)現(xiàn)值比臨界值更極端”等價(jià)于“p-值小于a”。使用臨界值的概念進(jìn)行的檢驗(yàn)不計(jì)算p-值。只比較統(tǒng)計(jì)量的取值和臨界值的大小。,假設(shè)檢驗(yàn)的過程和邏輯,使用臨界值而不是p-值來判斷拒絕與否是前計(jì)算機(jī)時(shí)代的產(chǎn)物。當(dāng)時(shí)計(jì)算p-值不易,只有采用臨界值的概念。但從給定的a求臨界值同樣也不容易,好在習(xí)慣上僅僅在教科書中列出相應(yīng)于特定分布的幾個(gè)有限的a臨界值(比如a=0.05,a=0.025,a=0

10、.01,a=0.005,a=0.001等等),或者根據(jù)分布表反過來查臨界值(很不方便也很粗糙)。 現(xiàn)在計(jì)算機(jī)軟件都不給出a和臨界值,但都給出p-值和統(tǒng)計(jì)量實(shí)現(xiàn)值,讓用戶自己決定顯著性水平是多少。,假設(shè)檢驗(yàn)的例子,例6.1(數(shù)據(jù):sugar.txt, sugar.sav, sugar.sas7bdat)一個(gè)顧客買了一包標(biāo)有500g重的一包紅糖,覺得份量不足,于是找到監(jiān)督部門;當(dāng)然他們會覺得一包份量不夠可能是隨機(jī)的。于是監(jiān)督

11、部門就去商店稱了50包紅糖;得到均值(平均重量)是498.35g;這的確比500g少,但這是否能夠說明廠家生產(chǎn)的這批紅糖平均起來不夠份量呢?首先,可以畫出這些重量的直方圖(圖6.1)。這個(gè)直方圖看上去象是正態(tài)分布的樣本。于是不妨假定這一批袋裝紅糖呈正態(tài)分布。,su=scan("D:/booktj1/data/sugar.txt");hist(su),假設(shè)檢驗(yàn)的例子,檢驗(yàn)統(tǒng)計(jì)量為(為什么用這個(gè)?),這次我們的假設(shè)檢驗(yàn)問

12、題就是,> t.test(su,m=500,alt="less") One Sample t-testdata: su t = -2.6962, df = 49, p-value = 0.004793alternative hypothesis: true mean is less than 500 95 percent confidence interval: -Inf 4

13、99.3749 sample estimates:mean of x 498.3472,,SPSS,p-value = 0.004793=0.009586/2,假設(shè)檢驗(yàn)的例子,例.汽車廠商聲稱其發(fā)動(dòng)機(jī)排放標(biāo)準(zhǔn)的一個(gè)指標(biāo)平均低于20個(gè)單位。在抽查了10臺發(fā)動(dòng)機(jī)之后,得到下面的排放數(shù)據(jù):17.0、21.7、17.9、22.9、20.7、22.4、17.3、21.8、24.2、25.4。該樣本均值為21.13。究竟能否由此認(rèn)為該指標(biāo)均

14、值超過20?這次我們的假設(shè)檢驗(yàn)問題就是,假設(shè)檢驗(yàn)的例子,檢驗(yàn)統(tǒng)計(jì)量為我們可以發(fā)現(xiàn)p-值為0.1243,因此,我們沒有證據(jù)否定零假設(shè)(如果顯著性水平小于它)。,為什么不能“接受零假設(shè)”,其實(shí)可以,比如下面兩種情況:1. 備選假設(shè)也是單點(diǎn)分布,這時(shí)可以負(fù)責(zé)地算出犯第二類錯(cuò)誤的概率。2. 貝葉斯檢驗(yàn)情況(這是一種決策觀點(diǎn))但在經(jīng)典統(tǒng)計(jì)中的絕大多數(shù)情況都不可以。,從一個(gè)例子看“接受零假設(shè)”,(數(shù)據(jù) rice.sav)一個(gè)大米加

15、工廠賣給一個(gè)超市一批標(biāo)明10kg重的大米。而該超市懷疑該廠家缺斤短兩,對10包大米進(jìn)行了稱重,得到下面結(jié)果(單位:千克)9.93 9.83 9.76 9.95 10.07 9.89 10.03 9.97 9.89 9.87這里假定打包的大米重量服從正態(tài)分布。由于發(fā)生分歧,于是各方同意用這個(gè)數(shù)據(jù)進(jìn)行關(guān)于大米重量均值m的t檢驗(yàn);以廠家所說的平均重量為10kg作為零假設(shè),而以超市懷疑的份量不足10kg作為備選假設(shè):,1.超市的檢驗(yàn),于是

16、,超市、加工廠老板和該老板的律師都進(jìn)行了檢驗(yàn)。結(jié)果是:超市用全部數(shù)據(jù)進(jìn)行t檢驗(yàn),得到拒絕零假設(shè)的結(jié)論。他們根據(jù)計(jì)算得到:樣本均值為9.92kg,而p-值為0.0106。因此超市認(rèn)為,對于顯著性水平a=0.05,應(yīng)該拒絕零假設(shè)。,2. 加工廠老板的檢驗(yàn),大米加工廠老板只用2個(gè)數(shù)據(jù),得到“接受零假設(shè)”的結(jié)論。大米加工廠老板也懂些統(tǒng)計(jì),他只取了上面樣本的頭兩個(gè)個(gè)數(shù)目9.93和9.83進(jìn)行同樣的t檢驗(yàn)。通過對這兩個(gè)數(shù)進(jìn)行計(jì)算得到:樣本均

17、值為9.88kg, 而p-值為0.1257. 雖然樣本均值不如超市檢驗(yàn)的大, 但p-值大大增加。加工廠老板于是下了結(jié)論:對于水平a=0.05,“接受零假設(shè)”,即加工廠的大米平均重量的確為10kg。,3.加工廠老板律師的檢驗(yàn),大米加工廠老板的律師用了全部數(shù)據(jù),但不同的檢驗(yàn)方法,得到“接受零假設(shè)”的結(jié)論。大米加工廠老板的律師說可以用全部數(shù)據(jù)。他利用對于連續(xù)變量比例的檢驗(yàn),也就是關(guān)于中位數(shù)的符號檢驗(yàn)(注意對于正態(tài)分布,對中位數(shù)的檢驗(yàn)等價(jià)于

18、對均值的檢驗(yàn))。根據(jù)計(jì)算,得到該檢驗(yàn)的p-值為0.0547。所以這個(gè)律師說在顯著性水平a=0.05時(shí),應(yīng)該“接受零假設(shè)”。還說,“既然三個(gè)檢驗(yàn)中有兩個(gè)都接受零假設(shè),就應(yīng)該接受?!?如何評價(jià)?,加工廠老板實(shí)際上減少了作為證據(jù)的數(shù)據(jù),因此只得到“證據(jù)不足,無法拒絕零假設(shè)”的結(jié)論。但加工廠老板把“證據(jù)不足以拒絕零假設(shè)”改成“接受零假設(shè)”了。而且,從樣本中僅選擇某些數(shù)目(等于銷毀證據(jù))違背統(tǒng)計(jì)道德。 律師雖然用了全部數(shù)據(jù),但

19、用了不同的方法。他也只能夠說“在這個(gè)檢驗(yàn)方法下,證據(jù)不足以拒絕零假設(shè)”而不能說“接受零假設(shè)”。另外,律師對超市用更有效的檢驗(yàn)方法得到的“拒絕零假設(shè)”的結(jié)論視而不見,這也違背了統(tǒng)計(jì)原理。 對于同一個(gè)檢驗(yàn)問題,可能有多種檢驗(yàn)方法。但只要有一個(gè)拒絕,就應(yīng)該拒絕。那些不能拒絕的檢驗(yàn)方法是能力不足。用統(tǒng)計(jì)術(shù)語來說,是勢(power)不足,或者效率(efficiency)低。,關(guān)于例6.7的總結(jié),1.在已經(jīng)得到樣本的情況下,隨意舍取一些

20、數(shù)目是違背統(tǒng)計(jì)原理和統(tǒng)計(jì)道德的。這相當(dāng)于篡改或毀滅證據(jù)。2.由于證據(jù)不足而不能拒絕零假設(shè)絕對不能說成“接受零假設(shè)”。如果一定要說,請給出你接受零假設(shè)所可能犯第二類錯(cuò)誤的概率(這是無法算出的)。這是加工廠老板和律師所犯的錯(cuò)誤。3.例中律師的檢驗(yàn)和超市所做的檢驗(yàn)都針對同樣的檢驗(yàn)問題,但由于超市的檢驗(yàn)方法比律師的檢驗(yàn)更強(qiáng)大(或更強(qiáng)勢,more powerful,更有效率,more efficient),所以超市拒絕了零假設(shè),而律師的檢驗(yàn)則

21、不能拒絕。如果有針對同一檢驗(yàn)問題的許多檢驗(yàn)方法,那么,只要有一個(gè)拒絕,就必須拒絕。絕對不能“少數(shù)服從多數(shù)”,也不能“視而不見”。,以關(guān)于均值的t檢驗(yàn)為例;實(shí)際上,只要零假設(shè)的均值和樣本均值的確不一樣,那么根據(jù)檢驗(yàn)統(tǒng)計(jì)量的公式可以看出,如果樣本量不斷增大,就必然會拒絕零假設(shè)。當(dāng)然,對于效率較低的檢驗(yàn),要拒絕零假設(shè)所需要的樣本量較大。,關(guān)于正態(tài)性的檢驗(yàn),1.Shapiro正態(tài)性檢驗(yàn):原假設(shè):數(shù)據(jù)來自正態(tài)性總體x=scan(“sugar

22、.txt”)Shapiro.test(x),關(guān)于正態(tài)性的檢驗(yàn),2.正態(tài)QQ圖:用樣本分位數(shù)與正態(tài)分位數(shù)做散點(diǎn)圖。qqnorm(x)qqline(x),雙正態(tài)總體均值差的檢驗(yàn),關(guān)于兩個(gè)獨(dú)立總體均值的差異的假設(shè)檢驗(yàn),雙正態(tài)總體均值差的檢驗(yàn),例.(數(shù)據(jù)drug.txt)為檢測某種藥物對攻擊性情緒的影響,對處理組的100名服藥者和對照組的150名非服藥者進(jìn)行心理測試,得到相應(yīng)的某指標(biāo).人們要檢驗(yàn)處理組指標(biāo)的均值是否大于對照組的均值.,雙

23、正態(tài)總體均值差的檢驗(yàn),> t.test(x,y,alt="greater") Welch Two Sample t-testdata: x and yt = 0.94456, df = 231.72, p-value = 0.1729alternative hypothesis: true difference in means is greater than 095 percent

24、confidence interval: -0.3742108 Infsample estimates:mean of x mean of y 8.60202 8.10200,成對樣本的問題,例. (數(shù)據(jù)diet.txt)有兩列50對減肥數(shù)據(jù),分別是減肥前后的重量數(shù)據(jù)。人們希望比較50個(gè)人在減肥前后的重量。這樣的兩個(gè)樣本,不能用前面的獨(dú)立樣本均值差的檢驗(yàn),因?yàn)槊恳粋€(gè)人減肥后的重量都和自己減肥前的重量有關(guān),所

25、以不獨(dú)立,但不同人之間卻是獨(dú)立的。 令所有個(gè)體減肥前后重量差的均值為 ,,成對樣本的問題,t.test(xx,yy,alt="greater",pair=T) Paired t-testdata: xx and yyt = 3.355, df = 49, p-value = 0.0007694alternative hypothesis: true difference in me

26、ans is greater than 095 percent confidence interval: 0.9405451 Infsample estimates:mean of the differences 1.88,總體比例的檢驗(yàn),例.對于電視節(jié)目,收視率是個(gè)重要的指標(biāo)。一個(gè)對1500人的電話調(diào)查表明,在某一節(jié)目播出的時(shí)候,被訪的正在觀看電視的人中有23%的正在觀看這個(gè)

27、節(jié)目。現(xiàn)在想知道,這是否和該節(jié)目的制作人所期望的25%的收視率有顯著不足。,總體比例的檢驗(yàn),> binom.test(0.23*1500,1500,0.25,alt="less") Exact binomial testdata: 0.23 * 1500 and 1500number of successes = 345, number of trials = 1500, p-value

28、=0.03837alternative hypothesis: true probability of success is less than 0.2595 percent confidence interval: 0.0000000 0.2485905sample estimates:probability of success 0.23,兩個(gè)總體比例差的檢驗(yàn),例.如果節(jié)目甲的樣本收視

29、率為20%,樣本量為1200.節(jié)目乙的收視率為21%,樣本量為1300.是不是節(jié)目甲的收視率就真的低于節(jié)目乙?,兩個(gè)總體比例差的檢驗(yàn),> binom.test(c(0.2*1200,0.21*1300),c(1200,1300),alt="less") Exact binomial testdata: c(0.2 * 1200, 0.21 * 1300)number of successe

30、s = 240, number of trials = 513, p-value = 0.07882alternative hypothesis: true probability of success is less than 0.595 percent confidence interval: 0.0000000 0.5051157sample estimates:probability of success

31、 0.4678363,連續(xù)變量比例的檢驗(yàn),有時(shí)需要檢驗(yàn)收入低于某個(gè)水平的人占有的比例是否和預(yù)期的一致。這里只要把大于某水平的觀測值看作貝努力實(shí)驗(yàn)的“成功”,而把小于某水平的觀測值看成“失敗”,就回到二項(xiàng)分布了。,連續(xù)變量比例的檢驗(yàn),例. (數(shù)據(jù)life.txt)某微生物的壽命問題,這里有某微生物在一種污染環(huán)境下生存的壽命數(shù)據(jù),問題是存活時(shí)間低于2小時(shí)的是否少于70%。,連續(xù)變量比例的檢驗(yàn),> binom.test(s

32、um(x<2),60,0.7,alt="greater") Exact binomial testdata: sum(x < 2) and 60number of successes = 52, number of trials = 60, p-value = 0.002208alternative hypothesis: true probability of success i

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論