版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、概率統(tǒng)計模型講座,主講:呂 佳數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,確定性因素和隨機(jī)性因素,隨機(jī)因素可以忽略,隨機(jī)因素影響可以簡單地以平均值的作用出現(xiàn),隨機(jī)因素影響必須考慮,隨機(jī)模型,一、電梯問題,有r個人在某棟大樓的一樓進(jìn)入電梯,大樓共有n層。如果每個乘客在任何一層樓出電梯的可能性相同,那么直到電梯中的人下完為止,電梯平均需要停多少次?如果在一樓共進(jìn)入電梯14人,而這棟大樓共有28層高,請用計算機(jī)模擬驗證你的理論。,Matlab 模擬程序 dian
2、ti.m:N=5000; %模擬次數(shù)n=28; %電梯層數(shù)r=14; %電梯開始進(jìn)的人數(shù)s=0;x=zeros(n,1);for k=1:N %模擬N次 s1=0; for i=1:n x(i)=0; end for j=1:r %對每個人是否下電梯進(jìn)行模擬 i=1+floor(rand(1,1)*n); x(i)=1;
3、 %第i層有人下 end s1=sum(x); %該次模擬中總共要下的人數(shù) s=s+s1; %累加各次模擬中要下的人數(shù)endeq=s/N %模擬平均值輸出ei=n*(1-(1-1/n)^r) %理論值輸出,計算機(jī)模擬程序,二、聰明的保險公司,人壽保險問題,3、對這2500個參保對象每人每年至少收取多少保險費才能使公司以不小于0.99的概率每年獲利不少于10萬元?,假設(shè)有2500個同一年齡段
4、同一社會階層的人參加某保險公司的人壽保險。根據(jù)以前的統(tǒng)計資料,在一年里每個人死亡的概率為0.0001.每個參加保險的人一年付給保險公司120元保險費,而在死亡時其家屬從保險公司領(lǐng)取20000元,那么,,1、保險公司有多大可能性虧本?,2、有多大可能性保險公司一年獲利不少于10萬元?,4、由于保險公司之間競爭激烈,為了吸引參保者、擠垮對手,保險費還可以降低,比如20元,只要不虧本就行。因此,保險公司將考慮這樣的問題:在死亡率和賠償金
5、不變的情況下,每人每年交給保險公司20元保險費,保險公司至少要吸引多少個參保者才能以不小于0.99的概率不虧本?,人壽保險問題,人壽保險問題的數(shù)學(xué)模型,問題的關(guān)鍵在于,保險公司會面臨多少理賠,即會有多少參保者死亡?而這是具有隨機(jī)性的??梢砸腚S機(jī)變量X來表示參保者中的死亡人數(shù)。,問題分析,容易理解: X是服從二項分布B(n,p)的,其中n為參???cè)藬?shù),p為死亡概率。根據(jù)中心極限定理還可以知道,X近似服從正態(tài)分布N(np,npq),可
6、據(jù)此解決上述問題。,模型構(gòu)成,用隨機(jī)變量X表示一年之中死亡的人數(shù),則 X~B(2500,0.0001),一年之中有k個人死亡的概率為:,根據(jù) E(X)=2500×0.0001=0.25, D(X)=2500×0.0001×0.9999 ≈0.25,由中心極限定理知;X~N(0.25,0.52)。,1、保險公司虧本的概率為:,實際上這個值很難計算
7、,改用正態(tài)分布計算會方便很多:,模型求解,2、“一年獲利不少于10萬元”等價于“X≦10”,3、設(shè)x為每人每年所交保險費,“獲利不少于10萬元”即 2500x-20000X≧100000,等價于X≦x/8-5.,即每人應(yīng)交給保險公司51.32元保險費。,模型求解,4、設(shè)y為參保人數(shù),X仍為參保死亡人數(shù),那么此時X ~N(0.0001y,0.0001×0.9999y),則不虧本的條件變?yōu)椋?0y-20000X≥0,即X≤y/
8、1000.,即保險公司至少要吸引671人參加保險。,模型求解,對于二項分布,當(dāng)n很大時,可以應(yīng)用中心極限定理用正態(tài)分布近似計算。,理論依據(jù),德莫佛-拉普拉斯中心極限定理(De Moivre-Laplace),設(shè)隨機(jī)變量ξn(n=1, 2, ...)服從參數(shù)為n, p(0<p<1)的二項分布,則,關(guān)于中心極限定理,在客觀實際中有這樣一種隨機(jī)變量,它們是由大量的相互獨立的隨機(jī)因素的綜合影響所形成的。而其中每一個別因素在總的影響中
9、所起的作用都是微小的。這種隨機(jī)變量往往近似地服從正態(tài)分布,這種現(xiàn)象就是中心極限定理的客觀背景。,正態(tài)分布在隨機(jī)變量的各種分布中,占有特別重要的地位.在某些條件下,即使原來并不服從正態(tài)分布的一些獨立的隨機(jī)變量,它們的和的分布,當(dāng)隨機(jī)變量的個數(shù)無限增加時,也是趨于正態(tài)分布的. 在概率論里,把研究在什么條件下,大量獨立隨機(jī)變量和的分布以正態(tài)分布為極限這一類定理稱為中心極限定理.,關(guān)于中心極限定理,關(guān)于中心極限定理,一般說來,如果某
10、些偶然因素對總和的影響是均勻的,微小的,即沒有一項起特別突出的作用,那么就可以斷定描述這些大量獨立的隨機(jī)因素的總和的隨機(jī)變量是近似的服從正態(tài)分布. 這是數(shù)理統(tǒng)計中大樣本的理論基礎(chǔ),用數(shù)學(xué)形式來表達(dá)就是李雅普諾夫定理.,關(guān)于中心極限定理,李雅普諾夫Liapunov定理: 設(shè)ξ1,ξ2…是相互獨立的隨機(jī)變量,有期望及方差,關(guān)于中心極限定理,這個定理的實際意義是:如果一個隨機(jī)現(xiàn)象由眾多的隨機(jī)因素所引起,每一因素在總的變化里起著不
11、顯著的作用,就可以推斷,描述這個隨機(jī)現(xiàn)象的隨機(jī)變量近似的服從正態(tài)分布.由于這些情況很普遍,所以有相當(dāng)多一類隨機(jī)變量遵從正態(tài)分布,從而正態(tài)分布成為概率統(tǒng)計中最重要的分布.,三、社會收入分配公平嗎?,收入分配問題,收入的差異是反應(yīng)社會收入分配是否公平的重要指標(biāo)。一般來說,鼓勵自由競爭會擴(kuò)大收入差異,但是政府可以通過稅收政策和對低收入者的補貼來縮小收入的差異。,現(xiàn)有30個工人家庭的月收入(元)的數(shù)據(jù),從低到高列表如下:,工人家庭月收入表,根據(jù)
12、以上數(shù)據(jù),你能設(shè)法描述收入分配的不公平程度嗎?,來看看洛倫茲(Lorenz)是怎么做的:,洛倫茲曲線,把這30個家庭按收入順序分成相等的5組,然后統(tǒng)計出每組家庭的收入總數(shù)以及戶數(shù)和收入的累積值及百分比累積值,如下表所示:,洛倫茲曲線,用橫坐標(biāo)表示戶數(shù)累積百分比,縱坐標(biāo)表示收入累積百分比,描點、連線便得到洛倫茲曲線,它是一條向下凸的曲線。,如果所有家庭的收入全部相等,則洛倫茲曲線為y=x,這條線稱為絕對平等線,所以洛倫茲曲線描述了收入的不
13、平等狀況。由于收入是按從小到大的順序排列的,所以洛倫茲曲線位于直線y=x的下方,它越接近直線y=x,收入就越平均;越向下凸出,則收入分配越不平均。,基尼(Gini)系數(shù),在洛倫茲曲線的基礎(chǔ)上,意大利統(tǒng)計學(xué)家基尼于1992年在他發(fā)表的有關(guān)收入集中指數(shù)的研究中提出了基尼系數(shù)。,評價,縱觀以上洛倫茲曲線得到的過程,只用到數(shù)理統(tǒng)計中極其平常而簡單的數(shù)據(jù)處理的基礎(chǔ)知識,但卻解決了“收入分配公平程度分析”這樣的大問題。由此可見,往往不是我們所學(xué)的知
14、識沒用,而是我們沒有運用知識的意識,沒有深入理解知識的本質(zhì),也沒有抓住問題的本質(zhì)。而數(shù)學(xué)建模正是在用數(shù)學(xué)知識解決問題的過程中把對知識的運用和對問題的挖掘同時發(fā)揮到極致!,四、生命線越長壽命越長?,有人認(rèn)為人的壽命與手掌上的“生命線”的長度有關(guān), “生命線” 長的人,壽命就長些; “生命線” 越短的人,壽命就越短。下表列出了50位自然死亡的人的生存年齡x(單位:年)及“生命線”的長度(單位:厘米)的數(shù)據(jù),試檢驗以上說法是否正確。,生命線越
15、長壽命越長?,生命線越長壽命越長?,問題分析,人的壽命和生命線的長度都是不確定的量,可分別用變量X和Y來描述。數(shù)據(jù)表實際上提供了X和Y的觀測值。,要對“生命線”越長壽命越長?這個問題給出是與否的回答,相當(dāng)與假定:兩隨機(jī)變量Y 和隨機(jī)變量X有線性依賴的關(guān)系。,生命線越長壽命越長?,利用相關(guān)系數(shù)可以判斷兩隨機(jī)變量之間是否存在線性關(guān)系。然而,隨機(jī)變量X和Y的分布都是未知的,無法直接計算其相關(guān)系數(shù)這一數(shù)字特征。但是我們可以從數(shù)據(jù)即樣本觀測值來計
16、算相關(guān)系數(shù)的估計量r.,模型建立,生命線越長壽命越長?,利用所給數(shù)據(jù)可以計算出:,從而X與Y之間的相關(guān)系數(shù)的估計值為:,生命線越長壽命越長?,由于,所以X與Y之間的線性相關(guān)關(guān)系是不顯著的。,相關(guān)分析和回歸分析,,在客觀世界中,普遍存在著變量之間的相互關(guān)系。數(shù)學(xué)的重要作用就是從數(shù)量上來揭示、表達(dá)和分析這些關(guān)系。而變量之間的關(guān)系分為兩類:,確定性關(guān)系-------即我們所熟悉的變量之間的函數(shù)關(guān)系,如圓的半徑R與圓的面積S之間就存在確定的函數(shù)
17、關(guān)系。,非確定性關(guān)系-------即變量之間雖然有密切的關(guān)系,但這種關(guān)系卻無法用確定的函數(shù)關(guān)系表達(dá),變量之間的這種非確定性關(guān)系,稱為相關(guān)關(guān)系。例如:人的身高和體重的關(guān)系;人的血壓和年齡的關(guān)系,某產(chǎn)品的廣告投入與銷售額的關(guān)系等。,具有相關(guān)關(guān)系的變量雖然不具有確定的函數(shù)關(guān)系,但是可以借助函數(shù)關(guān)系來表示它們之間的統(tǒng)計規(guī)律。這種近似地表示它們之間的相關(guān)關(guān)系的函數(shù)被稱為回歸函數(shù)。 最簡單的情形是由兩個變量形成的關(guān)系??紤]用
18、下列模型表示: 但是由于兩個變量之間不存在確定的函數(shù)關(guān)系,因此,必須把隨即波動考慮進(jìn)去,故引入模型如下:,相關(guān)分析和回歸分析,回歸分析就是根據(jù)已得的試驗結(jié)果以及以往的經(jīng)驗來建立統(tǒng)計模型,并研究變量間的相關(guān)關(guān)系,建立起變量之間的近似表達(dá)式,并由此對相應(yīng)的變量進(jìn)行預(yù)測和控制。,相關(guān)分析和回歸分析,相關(guān)分析法和回歸分析是研究兩個或兩個以上變量的相關(guān)關(guān)系的重要的統(tǒng)計方法。但兩者之間又有明顯的區(qū)別:,相關(guān)分析和回歸分析,
19、,試求出 與 的關(guān)系,并判斷是否有效。,例 為了研究大豆脂肪含量 和蛋白質(zhì)含量 的關(guān)系,測定了九種大豆品種籽粒內(nèi)的脂肪含量和蛋白質(zhì)含量,得到如下數(shù)據(jù),解 (1)描散點圖,(2)建立模型,由散點圖,設(shè)變量 與 為線性相關(guān)關(guān)系:,確定回歸系數(shù) 和 :,所以,所求的回歸方程為,(3)檢驗回歸方程的有效性,查相關(guān)系數(shù)臨界值表,因為,所以回歸方程在 的檢驗水平下有統(tǒng)計意義。,即可以認(rèn)為大豆的蛋白質(zhì)含量與脂肪含量
20、有線性相關(guān)性。,五、你身體的血液總量有多少?,如何估計一個人體內(nèi)的血液總量?,注射一定量的葡萄糖,采集一定容積的血樣,測量注射前后葡萄糖含量的變化,即可估計人體的血液總量。主意采集和測量的時間要選擇恰當(dāng),使血液中的葡萄糖含量充分均勻,又基本上未被人體吸收。,湖中有多少條魚?,設(shè)湖中有魚群,現(xiàn)捕出r條魚,做上記號后放回.一段時間后,再從湖中捕起n條魚,其中有標(biāo)記的有k條,試據(jù)此信息估計湖中魚的總數(shù)N.,憑感覺你也能給出回答:,,上述兩個問
21、題本質(zhì)上是一樣的,為什么可以這樣做呢?,,數(shù)學(xué)解釋,我們以捕魚問題為例給出其數(shù)學(xué)解釋:,解釋一:概率可以用頻率來近似估計。,數(shù)學(xué)解釋,解釋二:極大似然估計理論,數(shù)學(xué)解釋,抽樣調(diào)查現(xiàn)在已被廣泛應(yīng)用。它省時省力,能獲得較為準(zhǔn)確的結(jié)果,這一方面是由于方法本身的科學(xué)性;但另一方面很重要的一個前提是被調(diào)查者的回答必須都是真實的。,六、敏感性問題的調(diào)查,敏感問題(sensitive problem)是指涉及個人(或單位)的隱私或利益的問題,以及大多
22、數(shù)人認(rèn)為不便在公開場合表態(tài)或陳述的問題,在某些情況下,還包括一些違法或犯罪的行為。,敏感問題的概念,例如:在統(tǒng)計學(xué)研究中,經(jīng)常會遇到一些不受被調(diào)查者歡迎、或感到尷尬的所謂敏感問題:如一群人中參加賭博的比率?吸毒人的比率?經(jīng)營中偷稅漏稅人的比率?學(xué)生中考試作弊的人的比率?婚前有無性行為?推銷藥品是否給回扣?各種類型的額外消費、公款吃喝、同性戀及類似的為社會所不贊成的各種事件等問題。,敏感問題的分類,敏感問題的分類 按答案特征可分兩大
23、類 屬性特征敏感問題 也稱分類特征敏感問題,它被用于了解被調(diào)查者是否具有敏感問題的特征,并估計具有敏感問題特征的人在總體中所占比重,例如是否有吸毒行為?是否有婚外情? 數(shù)量特征敏感問題 數(shù)量敏感問題是指被調(diào)查者具有敏感問題數(shù)額大小的特征,一般是估計敏感問題數(shù)值的均數(shù),也可稱為敏感性均值問題,例如“你有幾個婚外性伴侶?”“你每月的工資外收入有多少?”,這類問題,如果直接調(diào)查,被調(diào)查者
24、可能拒絕回答,應(yīng)答率很低,即使問卷上有答案,但答案是否真實,值得懷疑。所以,對于敏感性問題,若采用直接調(diào)查的方法,調(diào)查者將難以控制樣本信息,得不到可靠的樣本數(shù)據(jù)。,為了得到敏感性問題的可靠的樣本數(shù)據(jù),必須采取特殊的科學(xué)可行的方法來提高應(yīng)答率、降低不真實回答率,以使調(diào)查結(jié)果真實可靠。首先是將保密措施坦誠告訴調(diào)查對象,取得理解和信任,調(diào)查場所要保證沒有他人在場,一般由調(diào)查對象自己在調(diào)查表上填寫;其次需要采取一定的技術(shù)。,敏感問題的調(diào)
25、查,對敏感性問題的調(diào)查方案,關(guān)鍵要使被調(diào)查者愿意做出真實回答,又能保守個人秘密。一旦調(diào)查方案設(shè)計有誤,被調(diào)查者就會拒絕配合,所得調(diào)查數(shù)據(jù)將會失去真實性。心理學(xué)家與統(tǒng)計學(xué)家為此設(shè)計了一種調(diào)查方法,一些統(tǒng)計分析方法——隨機(jī)化回答技術(shù),也應(yīng)運而生。,隨機(jī)化回答技術(shù)(Randomized Response Technique,RRT),是指在調(diào)查中使用特定的隨機(jī)化裝置,使得被調(diào)查者以預(yù)定的概率P來回答敏感性問題。 這一技術(shù)的
26、宗旨就是最大限度地為被調(diào)查者保守秘密,從而取得被調(diào)查者的信任。,隨機(jī)化回答技術(shù),比如在調(diào)查學(xué)生考試作弊的問題中,設(shè)計外形完全一樣的卡片n張,其中n1張卡片上寫上“你考試是否作過弊?”,n-n1張卡片上寫上另外的問題。然后放在一盒子里。調(diào)查時,由被調(diào)查者從盒子里任抽一卡片,根據(jù)卡片上的問題做出回答,至于卡片上具體是什么問題,調(diào)查者無權(quán)過問。這樣就起到了為被調(diào)查者保密的作用。因而相對于直接問答調(diào)查,易于得到被調(diào)查者的合作。,隨機(jī)化回答技術(shù)
27、是由美國社會學(xué)家Warner于1965年首先提出并用于敏感問題調(diào)查。,隨機(jī)應(yīng)答技術(shù)的類型沃納隨機(jī)化回答模型,西蒙斯模型(Simmons model),沃納隨機(jī)化回答模型調(diào)查模型的基本思想是: 為了調(diào)查某個敏感問題,同時列出兩個存在相關(guān)關(guān)系的問題制成卡片,被調(diào)查者隨機(jī)抽取卡片進(jìn)行回答。,具體的做法是:要調(diào)查的敏感性問題,列出正反兩個問題。如調(diào)查考試作弊問題,就作成兩種卡片: A、你在考試中作了弊嗎
28、? B、你在考試中沒有作弊嗎?,然后由被調(diào)查者隨機(jī)抽取一張來回答“是”或“否”,至于卡片上具體是什么問題,調(diào)查者無權(quán)過問。因此,調(diào)查人員并不知道被調(diào)查者在回答那一個問題,而達(dá)到對被調(diào)查者個人秘密的保密作用。,沃納隨機(jī)化回答模型,要求被調(diào)查者從中隨機(jī)抽取一個回答而調(diào)查人員不知道其具體抽中的是哪一個問題,但問題A的比例P是確定的。如果他所抽到的問題與自己情況一致則回答“是”,否則回答“不是”。,,,沃納隨機(jī)化回答模型
29、,沃納隨機(jī)化回答模型,設(shè) 是具有敏感性特征的人所占的比例,p是寫有問題“你屬于A嗎?”的卡片所占的比例。如果對n人進(jìn)行調(diào)查,調(diào)查結(jié)果中有n1個人回答“是”,有n-n1個人回答“否” ,統(tǒng)計結(jié)果中回答“是”的人的比例 =n1/n,對問題A回答“是”的人數(shù)比例為 。于是:,,的極大似然估計為:,,,其方差為:,公式:,印度教育當(dāng)局研究大學(xué)生中酗酒的流行程度。如果一個學(xué)生在調(diào)查前的一個月內(nèi)飲酒至少1250毫升,則稱他(
30、她)是一個酗酒者。 在這個定義下,從加爾各答市大學(xué)生中簡單隨機(jī)有放回地抽取了若干名大學(xué)生,目標(biāo)是估計加爾各答大學(xué)中酗酒者所占的比例 。,實例:,隨機(jī)抽取了100名大學(xué)生,所用隨機(jī)化裝置為一裝有60個卡片的盒子。盒子中有45張卡片上寫有問題 “在上一個月你是否至少飲酒1250毫升?”(問題 A),剩余的15張卡片上寫有問題“在上一個月內(nèi)你是否飲酒少于1250毫升?” 調(diào)查時,在沒有調(diào)查員觀察
31、的情況下,被調(diào)查者把盒子中的卡片搖勻后從中隨機(jī)抽取一張,而后根據(jù)所抽到的卡片上的問題如實地回答“是”或“不是”。調(diào)查結(jié)果為:有28個人回答了“是”,72個人回答“不是”。,寫有敏感問題A的卡片占全部卡片的比例為 p=0.75,回答“是”的人數(shù)占總?cè)藬?shù)的比例 =n1/n=0.28,,有:n=100,n1=28,p=0.75,因此有:,=0.008145,,,=[0.28-0.25]/0.5=0.06,也即有6%的人是酗酒者。根
32、據(jù),沃納的方法雖然比直接提出敏感性問題要好,但所提的兩個問題都還具有敏感性。而且,該方法中回答A的人數(shù)比例不能為1/2。1967年西蒙斯對沃納模型進(jìn)行了改進(jìn)。,西蒙斯模型(Simmons model),他所建立的模型與沃納模型最大的不同點:在于調(diào)查人員提出的隨機(jī)化問題是兩個不相關(guān)的問題,其中一個為敏感性問題,另一個為非敏感性問題B,這樣的處理使被調(diào)查者的合作態(tài)度進(jìn)一步提高。,設(shè)樣本中對問題B(無關(guān)問題)回答“是”的人數(shù)比例為,西蒙斯模型
33、(Simmons model),對問題A回答“是”的人數(shù)比例,統(tǒng)計結(jié)果中回答“是”的人的比例,也就是對問題A或B回答“是”的人數(shù)比例,1. 已知的情況 設(shè)抽樣方式是簡單隨機(jī)有放回的,,是具有敏感性特征A的人所占的比例。,設(shè)總體為n的簡單隨機(jī)樣本中,有n1人回答“是”,則,,,其方差為:,西蒙斯模型(Simmons model),實踐中, 并不總是已知的,例如對于無關(guān)問題“你是四月份出生的嗎?”我們可以通過查有關(guān)資
34、料來獲得 的值,而對于無關(guān)問題“你喜歡藍(lán)色嗎?”我們就無法預(yù)知 的值,此時 就是未知的。因此有必要對 未知的情況進(jìn)行討論。,2. 未知的情況,敏感性問題占的比例分別為 和,假設(shè)總體1中回答敏感性問題的人占的比例為 時,對問題A或B作出“是”的答復(fù)者所占的比例為,假設(shè)總體2中回答敏感性問題的人占的比例為,對這兩個問題作出“是”的答復(fù)者的比例為,,這時需要抽取
35、兩個隨機(jī)樣本進(jìn)行調(diào)查。設(shè)這兩個樣本的容量分別為 和,從而得到該敏感問題的估計回答:,,其方差為:,,敏感性問題調(diào)查方法的應(yīng)用,某高校在開展關(guān)于普及性知識的活動中,要求對學(xué)校的學(xué)生是否有過性行為這一問題進(jìn)行抽樣調(diào)查。該調(diào)查問題具有敏感性,運用通常采取的調(diào)查方式,調(diào)查根本無法進(jìn)行,因此運用了敏感性問題抽樣調(diào)查方法,該高校在校生人數(shù)為6000人,隨機(jī)抽取1500名學(xué)生進(jìn)行抽樣調(diào)查,且分別運用了以上的兩種方法,比較統(tǒng)計結(jié)果。,采用隨機(jī)
36、化的回答技術(shù)設(shè)計了兩種用信封封裝比例一定的問卷,一種問題為:“你有過性行為嗎?”;另一種問題為:“你沒有過性行為嗎?”。在調(diào)查時,讓同學(xué)任意選取一個信封并回答上面的問題,當(dāng)然調(diào)查人員是不知道該同學(xué)回答的是哪一個問題。,,,,第一種方法:提出兩個都具有敏感性相關(guān)問題,這樣同學(xué)們根據(jù)他們的實際情況回答抽到的問題,與自己的情況一致的則回答“是”;否則回答“不是”。研究者在設(shè)計問卷時,設(shè)計第一種問題占60%,這樣兩個問題所占的比例比較接近,有
37、助于讓被調(diào)查者消除顧慮,我們對收回的問卷進(jìn)行統(tǒng)計,結(jié)果對兩種問題回答“是”的有638人,占樣本的比例為:,=638/1500=0.4253,已知 =638/1500=0.4253,P=60%,將它代入,,,其方差為:,得到回答第一種問題為“是”的人數(shù)估計比例:,這樣應(yīng)用第一種方法估計統(tǒng)計對問題一回答“是”的比例為:12.65%。標(biāo)準(zhǔn)差的估計值為:,即 0.064。,我們同樣采用隨機(jī)化的回答技術(shù)設(shè)計了兩種用信封封裝比例一定的問卷
38、,然而一種問題為:“你有過性行為嗎?”;為了統(tǒng)計的方便我們選擇了 已知的情況,即另一種問題設(shè)計為:“你是四月份出生的嗎?”。,顯然,第二個問題與我們所要調(diào)查的問題無關(guān),而且被調(diào)查同學(xué)當(dāng)中是四月份出生的比例我們可以很容易從學(xué)校教務(wù)處學(xué)生信息中心收集到,經(jīng)統(tǒng)計該校學(xué)生中四月份出生者所占的比例為15.38%。其中設(shè)計的問卷中第一種問題同樣占60%,統(tǒng)計結(jié)果為對兩種問題回答“是”的有206人,占樣本的比例為:,,p,,第二種方法:提出
39、的兩個問題,一個為敏感性問題,另一個為與調(diào)查內(nèi)容無關(guān)的非敏感性問題。,,得到回答第一種問題為“是”的人數(shù)估計比例:,,=206/1500=0.1373,將它代入,,,其方差為:,可以看出采用兩種調(diào)查技術(shù),最終得出的結(jié)果是接近的,七、概率論與數(shù)理統(tǒng)計的應(yīng)用綜述,1、參數(shù)估計方法2、假設(shè)檢驗方法3、相關(guān)分析方法4、回歸分析方法5、方差分析方法6、隨機(jī)過程應(yīng)用,假設(shè)檢驗,假設(shè)檢驗是對總體的分布函數(shù)的形式或分布中某些參數(shù)做出某種假設(shè),
40、然后通過抽取樣本,構(gòu)造適當(dāng)?shù)慕y(tǒng)計量,對假設(shè)的正確性進(jìn)行判斷的過程.,,假設(shè)檢驗,參數(shù)假設(shè)檢驗,非參數(shù)假設(shè)檢驗,總體分布已知,檢驗關(guān)于未知參數(shù)的某個假設(shè),總體分布未知時的假設(shè)檢驗問題,讓我們看一個例子.,本科概率統(tǒng)計課程主要研究參數(shù)假設(shè)檢驗問題 .較少涉及非參數(shù)假設(shè)檢驗。,例:某工廠生產(chǎn)10歐姆的電阻.根據(jù)以往生產(chǎn)的電阻實際情況,可以認(rèn)為其電阻值 X~N(? , ?2),標(biāo)準(zhǔn)差σ=0.1.現(xiàn)在隨機(jī)抽取10個電阻,測
41、得它們的電阻值為: 9.9, 10.1, 10.2, 9.7, 9.9, 9.9, 10, 10.5, 10.1, 10.2. 試問:從這些樣本,我們能否認(rèn)為該廠生產(chǎn)的電阻的平均值?為10歐姆?,方差分析,在工農(nóng)業(yè)生產(chǎn)和科學(xué)研究中,經(jīng)常遇到這樣的問題:影響產(chǎn)品產(chǎn)量、質(zhì)量的因素很多,我們需要了解在這眾多的因素中,哪些因素對影響產(chǎn)品產(chǎn)量、質(zhì)量有顯著影響.為此,要先做試驗,然后對測試的結(jié)果進(jìn)行分析.方差分析就是分析測試結(jié)果的
42、一種方法.,在方差分析中,把在試驗中變化的因素稱為因子,用A、B、C、...表示;因子在試驗中所取的不同狀態(tài)稱為水平,因子A的r個不同水平用A1、A2、...、Ar表示.,設(shè)在某試驗中,因子A有r個不同水平A1,A2,...,Ar,在Ai水平下的試驗結(jié)果Xi服從正態(tài)分布N(μi,σ2),i=1,2,...,r,且X1,X2,...,Xr間相互獨立.現(xiàn)在水平Ai下做了ni次試驗,獲得了ni個試驗結(jié)果Xij,j=1,2,...,ni這可以看
43、成是取自Xi的一個容量為ni的樣本,i=1,2,...,r.,單因子方差分析,基本概念,例:為尋求適應(yīng)本地區(qū)的高產(chǎn)油菜品種,今選了五種不同品種進(jìn)行試驗,每一品種在四塊試驗田上得到在每一塊田上的畝產(chǎn)量如下:,我們要研究的問題是諸不同品種的平均畝產(chǎn)量是否有顯著差異.,在本例中只考慮品種這一因子對畝產(chǎn)量的影響,五個不同品種就是該因子的五個不同水平.由于同一品種在不同田塊上的畝產(chǎn)量不同,我們可以認(rèn)為一個品種的畝產(chǎn)量就是一個總體,在方差分析中總假
44、定各總體獨立地服從同方差正態(tài)分布,即第i個品種的畝產(chǎn)量是一個隨機(jī)變量,它服從分布N(μi,σ2), i=1,2,3,4,5.,試驗的目的就是要檢驗假設(shè) H0:μ1=μ2=μ3=μ4=μ5是否成立.若是拒絕 ,那么我們就認(rèn)為這五種品種的平均畝產(chǎn)量之間有顯著差異;反之,就認(rèn)為各品種間產(chǎn)量的不同是由隨機(jī)因素引起的.方差分析就是檢驗假設(shè)的一種方法.,本質(zhì)上,方差分析是檢驗同方差的若干正態(tài)總體均值是否相等的一種統(tǒng)計方法.,
45、在實際問題中影響總體均值的因素可能不止一個.我們按試驗中因子的個數(shù),可以有單因子方差分析,雙因子分析,多因子分析等.例中是一個單因子方差分析問題.,相關(guān)軟件,MATLABEXCEL,《MATLAB數(shù)理統(tǒng)計》科學(xué)出版社EXCEL《概率論與數(shù)理統(tǒng)計教程》魏宗舒 高教出版社 第九章《MATLAB概率論與數(shù)理統(tǒng)計分析》,參考書推薦,《數(shù)學(xué)模型》姜啟源《數(shù)學(xué)建模方法及其應(yīng)用》韓中庚《概率論與數(shù)理統(tǒng)計教程》茆詩松《概率論與數(shù)理統(tǒng)計教程》
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 專題講座統(tǒng)計與概率
- 專題講座統(tǒng)計與概率
- [學(xué)習(xí)]概率統(tǒng)計教學(xué)課件
- 《統(tǒng)計知識講座》ppt課件
- [學(xué)習(xí)]概率統(tǒng)計教學(xué)課件習(xí)題
- [學(xué)習(xí)]概率統(tǒng)計假設(shè)檢驗
- [學(xué)習(xí)]概率與統(tǒng)計復(fù)習(xí)備考研究
- [學(xué)習(xí)]概率統(tǒng)計課件ch4-習(xí)題
- [學(xué)習(xí)]天津大學(xué)概率論與數(shù)理統(tǒng)計條件概率
- 概率統(tǒng)計
- 營銷活動中的概率統(tǒng)計模型的應(yīng)用
- [學(xué)習(xí)]概率論與數(shù)理統(tǒng)計ppt課件第一章習(xí)題
- 培養(yǎng)統(tǒng)計意識是學(xué)習(xí)統(tǒng)計與概率最重要的目標(biāo)
- [學(xué)習(xí)]概率論與數(shù)理統(tǒng)計ppt課件第一章古典概型與概率空間
- [學(xué)習(xí)]概率與數(shù)理統(tǒng)計第2章
- [學(xué)習(xí)]概率與數(shù)理統(tǒng)計第1章
- 概率統(tǒng)計21
- 概率統(tǒng)計 2
- 概率統(tǒng)計例題
- 概率統(tǒng)計模型在經(jīng)濟(jì)問題中的運用
評論
0/150
提交評論