[學(xué)習(xí)]概率統(tǒng)計(jì)模型講座ppt

上傳人：奔*** IP屬地：河北更新時間：2024-08-10 格式：ppt 頁數(shù)：91 大?。?.71MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩90頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、概率統(tǒng)計(jì)模型講座,主講：呂佳數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,確定性因素和隨機(jī)性因素,隨機(jī)因素可以忽略,隨機(jī)因素影響可以簡單地以平均值的作用出現(xiàn),隨機(jī)因素影響必須考慮,隨機(jī)模型,一、電梯問題,有r個人在某棟大樓的一樓進(jìn)入電梯，大樓共有n層。如果每個乘客在任何一層樓出電梯的可能性相同，那么直到電梯中的人下完為止，電梯平均需要停多少次？如果在一樓共進(jìn)入電梯14人，而這棟大樓共有28層高，請用計(jì)算機(jī)模擬驗(yàn)證你的理論。,Matlab 模擬程序 dian

2、ti.m:N=5000; %模擬次數(shù)n=28; %電梯層數(shù)r=14; %電梯開始進(jìn)的人數(shù)s=0;x=zeros(n,1);for k=1:N %模擬N次 s1=0; for i=1:n x(i)=0; end for j=1:r %對每個人是否下電梯進(jìn)行模擬 i=1+floor（rand(1,1)*n); x(i)=1;

3、 %第i層有人下 end s1=sum(x); %該次模擬中總共要下的人數(shù) s=s+s1; %累加各次模擬中要下的人數(shù)endeq=s/N %模擬平均值輸出ei=n*(1-(1-1/n)^r) %理論值輸出,計(jì)算機(jī)模擬程序,二、聰明的保險(xiǎn)公司,人壽保險(xiǎn)問題,3、對這2500個參保對象每人每年至少收取多少保險(xiǎn)費(fèi)才能使公司以不小于0.99的概率每年獲利不少于10萬元？,假設(shè)有2500個同一年齡段

4、同一社會階層的人參加某保險(xiǎn)公司的人壽保險(xiǎn)。根據(jù)以前的統(tǒng)計(jì)資料，在一年里每個人死亡的概率為0.0001.每個參加保險(xiǎn)的人一年付給保險(xiǎn)公司120元保險(xiǎn)費(fèi)，而在死亡時其家屬從保險(xiǎn)公司領(lǐng)取20000元，那么，,1、保險(xiǎn)公司有多大可能性虧本？,2、有多大可能性保險(xiǎn)公司一年獲利不少于10萬元？,4、由于保險(xiǎn)公司之間競爭激烈，為了吸引參保者、擠垮對手，保險(xiǎn)費(fèi)還可以降低，比如20元，只要不虧本就行。因此，保險(xiǎn)公司將考慮這樣的問題：在死亡率和賠償金

5、不變的情況下，每人每年交給保險(xiǎn)公司20元保險(xiǎn)費(fèi)，保險(xiǎn)公司至少要吸引多少個參保者才能以不小于0.99的概率不虧本？,人壽保險(xiǎn)問題,人壽保險(xiǎn)問題的數(shù)學(xué)模型,問題的關(guān)鍵在于，保險(xiǎn)公司會面臨多少理賠，即會有多少參保者死亡？而這是具有隨機(jī)性的?？梢砸腚S機(jī)變量X來表示參保者中的死亡人數(shù)。,問題分析,容易理解： X是服從二項(xiàng)分布B(n,p)的，其中n為參?？?cè)藬?shù)，p為死亡概率。根據(jù)中心極限定理還可以知道，X近似服從正態(tài)分布N(np,npq)，可

6、據(jù)此解決上述問題。,模型構(gòu)成,用隨機(jī)變量X表示一年之中死亡的人數(shù)，則 X~B(2500,0.0001),一年之中有k個人死亡的概率為：,根據(jù) E(X)=2500×0.0001=0.25, D(X)=2500×0.0001×0.9999 ≈0.25,由中心極限定理知；X~N(0.25,0.52)。,1、保險(xiǎn)公司虧本的概率為：,實(shí)際上這個值很難計(jì)算

7、，改用正態(tài)分布計(jì)算會方便很多：,模型求解,2、“一年獲利不少于10萬元”等價于“X≦10”,3、設(shè)x為每人每年所交保險(xiǎn)費(fèi)，“獲利不少于10萬元”即 2500x-20000X≧100000,等價于X≦x/8-5.,即每人應(yīng)交給保險(xiǎn)公司51.32元保險(xiǎn)費(fèi)。,模型求解,4、設(shè)y為參保人數(shù)，X仍為參保死亡人數(shù)，那么此時X ~N(0.0001y,0.0001×0.9999y)，則不虧本的條件變?yōu)椋?0y-20000X≥0,即X≤y/

8、1000.,即保險(xiǎn)公司至少要吸引671人參加保險(xiǎn)。,模型求解,對于二項(xiàng)分布，當(dāng)n很大時，可以應(yīng)用中心極限定理用正態(tài)分布近似計(jì)算。,理論依據(jù),德莫佛-拉普拉斯中心極限定理(De Moivre-Laplace),設(shè)隨機(jī)變量ξn(n=1, 2, ...)服從參數(shù)為n, p(0<p<1)的二項(xiàng)分布，則,關(guān)于中心極限定理,在客觀實(shí)際中有這樣一種隨機(jī)變量,它們是由大量的相互獨(dú)立的隨機(jī)因素的綜合影響所形成的。而其中每一個別因素在總的影響中

9、所起的作用都是微小的。這種隨機(jī)變量往往近似地服從正態(tài)分布，這種現(xiàn)象就是中心極限定理的客觀背景。,正態(tài)分布在隨機(jī)變量的各種分布中,占有特別重要的地位.在某些條件下,即使原來并不服從正態(tài)分布的一些獨(dú)立的隨機(jī)變量,它們的和的分布,當(dāng)隨機(jī)變量的個數(shù)無限增加時,也是趨于正態(tài)分布的. 在概率論里,把研究在什么條件下,大量獨(dú)立隨機(jī)變量和的分布以正態(tài)分布為極限這一類定理稱為中心極限定理.,關(guān)于中心極限定理,關(guān)于中心極限定理,一般說來,如果某

10、些偶然因素對總和的影響是均勻的,微小的,即沒有一項(xiàng)起特別突出的作用,那么就可以斷定描述這些大量獨(dú)立的隨機(jī)因素的總和的隨機(jī)變量是近似的服從正態(tài)分布. 這是數(shù)理統(tǒng)計(jì)中大樣本的理論基礎(chǔ),用數(shù)學(xué)形式來表達(dá)就是李雅普諾夫定理.,關(guān)于中心極限定理,李雅普諾夫Liapunov定理：設(shè)ξ1,ξ2…是相互獨(dú)立的隨機(jī)變量,有期望及方差,關(guān)于中心極限定理,這個定理的實(shí)際意義是:如果一個隨機(jī)現(xiàn)象由眾多的隨機(jī)因素所引起,每一因素在總的變化里起著不

11、顯著的作用,就可以推斷,描述這個隨機(jī)現(xiàn)象的隨機(jī)變量近似的服從正態(tài)分布.由于這些情況很普遍,所以有相當(dāng)多一類隨機(jī)變量遵從正態(tài)分布,從而正態(tài)分布成為概率統(tǒng)計(jì)中最重要的分布.,三、社會收入分配公平嗎？,收入分配問題,收入的差異是反應(yīng)社會收入分配是否公平的重要指標(biāo)。一般來說，鼓勵自由競爭會擴(kuò)大收入差異，但是政府可以通過稅收政策和對低收入者的補(bǔ)貼來縮小收入的差異。,現(xiàn)有30個工人家庭的月收入（元）的數(shù)據(jù)，從低到高列表如下：,工人家庭月收入表,根據(jù)

12、以上數(shù)據(jù)，你能設(shè)法描述收入分配的不公平程度嗎？,來看看洛倫茲(Lorenz)是怎么做的：,洛倫茲曲線,把這30個家庭按收入順序分成相等的5組，然后統(tǒng)計(jì)出每組家庭的收入總數(shù)以及戶數(shù)和收入的累積值及百分比累積值，如下表所示：,洛倫茲曲線,用橫坐標(biāo)表示戶數(shù)累積百分比，縱坐標(biāo)表示收入累積百分比，描點(diǎn)、連線便得到洛倫茲曲線，它是一條向下凸的曲線。,如果所有家庭的收入全部相等，則洛倫茲曲線為y=x，這條線稱為絕對平等線，所以洛倫茲曲線描述了收入的不

13、平等狀況。由于收入是按從小到大的順序排列的，所以洛倫茲曲線位于直線y=x的下方，它越接近直線y=x，收入就越平均；越向下凸出，則收入分配越不平均。,基尼(Gini)系數(shù),在洛倫茲曲線的基礎(chǔ)上，意大利統(tǒng)計(jì)學(xué)家基尼于1992年在他發(fā)表的有關(guān)收入集中指數(shù)的研究中提出了基尼系數(shù)。,評價,縱觀以上洛倫茲曲線得到的過程，只用到數(shù)理統(tǒng)計(jì)中極其平常而簡單的數(shù)據(jù)處理的基礎(chǔ)知識，但卻解決了“收入分配公平程度分析”這樣的大問題。由此可見，往往不是我們所學(xué)的知

14、識沒用，而是我們沒有運(yùn)用知識的意識，沒有深入理解知識的本質(zhì)，也沒有抓住問題的本質(zhì)。而數(shù)學(xué)建模正是在用數(shù)學(xué)知識解決問題的過程中把對知識的運(yùn)用和對問題的挖掘同時發(fā)揮到極致！,四、生命線越長壽命越長？,有人認(rèn)為人的壽命與手掌上的“生命線”的長度有關(guān)， “生命線” 長的人，壽命就長些； “生命線” 越短的人，壽命就越短。下表列出了50位自然死亡的人的生存年齡x(單位：年)及“生命線”的長度(單位：厘米)的數(shù)據(jù)，試檢驗(yàn)以上說法是否正確。,生命線越

15、長壽命越長？,生命線越長壽命越長？,問題分析,人的壽命和生命線的長度都是不確定的量，可分別用變量X和Y來描述。數(shù)據(jù)表實(shí)際上提供了X和Y的觀測值。,要對“生命線”越長壽命越長？這個問題給出是與否的回答，相當(dāng)與假定：兩隨機(jī)變量Y 和隨機(jī)變量X有線性依賴的關(guān)系。,生命線越長壽命越長？,利用相關(guān)系數(shù)可以判斷兩隨機(jī)變量之間是否存在線性關(guān)系。然而，隨機(jī)變量X和Y的分布都是未知的，無法直接計(jì)算其相關(guān)系數(shù)這一數(shù)字特征。但是我們可以從數(shù)據(jù)即樣本觀測值來計(jì)

16、算相關(guān)系數(shù)的估計(jì)量r.,模型建立,生命線越長壽命越長？,利用所給數(shù)據(jù)可以計(jì)算出：,從而X與Y之間的相關(guān)系數(shù)的估計(jì)值為：,生命線越長壽命越長？,由于,所以X與Y之間的線性相關(guān)關(guān)系是不顯著的。,相關(guān)分析和回歸分析,,在客觀世界中，普遍存在著變量之間的相互關(guān)系。數(shù)學(xué)的重要作用就是從數(shù)量上來揭示、表達(dá)和分析這些關(guān)系。而變量之間的關(guān)系分為兩類：,確定性關(guān)系-------即我們所熟悉的變量之間的函數(shù)關(guān)系，如圓的半徑R與圓的面積S之間就存在確定的函數(shù)

17、關(guān)系。,非確定性關(guān)系-------即變量之間雖然有密切的關(guān)系，但這種關(guān)系卻無法用確定的函數(shù)關(guān)系表達(dá)，變量之間的這種非確定性關(guān)系，稱為相關(guān)關(guān)系。例如：人的身高和體重的關(guān)系；人的血壓和年齡的關(guān)系，某產(chǎn)品的廣告投入與銷售額的關(guān)系等。,具有相關(guān)關(guān)系的變量雖然不具有確定的函數(shù)關(guān)系，但是可以借助函數(shù)關(guān)系來表示它們之間的統(tǒng)計(jì)規(guī)律。這種近似地表示它們之間的相關(guān)關(guān)系的函數(shù)被稱為回歸函數(shù)。最簡單的情形是由兩個變量形成的關(guān)系?？紤]用

18、下列模型表示：但是由于兩個變量之間不存在確定的函數(shù)關(guān)系，因此，必須把隨即波動考慮進(jìn)去，故引入模型如下：,相關(guān)分析和回歸分析,回歸分析就是根據(jù)已得的試驗(yàn)結(jié)果以及以往的經(jīng)驗(yàn)來建立統(tǒng)計(jì)模型，并研究變量間的相關(guān)關(guān)系，建立起變量之間的近似表達(dá)式，并由此對相應(yīng)的變量進(jìn)行預(yù)測和控制。,相關(guān)分析和回歸分析,相關(guān)分析法和回歸分析是研究兩個或兩個以上變量的相關(guān)關(guān)系的重要的統(tǒng)計(jì)方法。但兩者之間又有明顯的區(qū)別：,相關(guān)分析和回歸分析,

19、,試求出與的關(guān)系，并判斷是否有效。,例為了研究大豆脂肪含量和蛋白質(zhì)含量的關(guān)系，測定了九種大豆品種籽粒內(nèi)的脂肪含量和蛋白質(zhì)含量，得到如下數(shù)據(jù),解（1）描散點(diǎn)圖,（2）建立模型,由散點(diǎn)圖，設(shè)變量與為線性相關(guān)關(guān)系：,確定回歸系數(shù) 和：,所以，所求的回歸方程為,（3）檢驗(yàn)回歸方程的有效性,查相關(guān)系數(shù)臨界值表,因?yàn)?所以回歸方程在的檢驗(yàn)水平下有統(tǒng)計(jì)意義。,即可以認(rèn)為大豆的蛋白質(zhì)含量與脂肪含量

20、有線性相關(guān)性。,五、你身體的血液總量有多少？,如何估計(jì)一個人體內(nèi)的血液總量？,注射一定量的葡萄糖，采集一定容積的血樣，測量注射前后葡萄糖含量的變化，即可估計(jì)人體的血液總量。主意采集和測量的時間要選擇恰當(dāng)，使血液中的葡萄糖含量充分均勻，又基本上未被人體吸收。,湖中有多少條魚？,設(shè)湖中有魚群，現(xiàn)捕出r條魚，做上記號后放回．一段時間后，再從湖中捕起n條魚，其中有標(biāo)記的有k條，試據(jù)此信息估計(jì)湖中魚的總數(shù)N.,憑感覺你也能給出回答：,,上述兩個問

21、題本質(zhì)上是一樣的，為什么可以這樣做呢？,,數(shù)學(xué)解釋,我們以捕魚問題為例給出其數(shù)學(xué)解釋：,解釋一：概率可以用頻率來近似估計(jì)。,數(shù)學(xué)解釋,解釋二：極大似然估計(jì)理論,數(shù)學(xué)解釋,抽樣調(diào)查現(xiàn)在已被廣泛應(yīng)用。它省時省力，能獲得較為準(zhǔn)確的結(jié)果，這一方面是由于方法本身的科學(xué)性；但另一方面很重要的一個前提是被調(diào)查者的回答必須都是真實(shí)的。,六、敏感性問題的調(diào)查,敏感問題（sensitive problem）是指涉及個人（或單位）的隱私或利益的問題,以及大多

22、數(shù)人認(rèn)為不便在公開場合表態(tài)或陳述的問題，在某些情況下，還包括一些違法或犯罪的行為。,敏感問題的概念,例如：在統(tǒng)計(jì)學(xué)研究中，經(jīng)常會遇到一些不受被調(diào)查者歡迎、或感到尷尬的所謂敏感問題：如一群人中參加賭博的比率？吸毒人的比率？經(jīng)營中偷稅漏稅人的比率？學(xué)生中考試作弊的人的比率？婚前有無性行為？推銷藥品是否給回扣？各種類型的額外消費(fèi)、公款吃喝、同性戀及類似的為社會所不贊成的各種事件等問題。,敏感問題的分類,敏感問題的分類按答案特征可分兩大

23、類屬性特征敏感問題也稱分類特征敏感問題，它被用于了解被調(diào)查者是否具有敏感問題的特征，并估計(jì)具有敏感問題特征的人在總體中所占比重，例如是否有吸毒行為？是否有婚外情？數(shù)量特征敏感問題數(shù)量敏感問題是指被調(diào)查者具有敏感問題數(shù)額大小的特征，一般是估計(jì)敏感問題數(shù)值的均數(shù)，也可稱為敏感性均值問題，例如“你有幾個婚外性伴侶？”“你每月的工資外收入有多少？”,這類問題，如果直接調(diào)查，被調(diào)查者

24、可能拒絕回答，應(yīng)答率很低，即使問卷上有答案，但答案是否真實(shí)，值得懷疑。所以，對于敏感性問題，若采用直接調(diào)查的方法，調(diào)查者將難以控制樣本信息，得不到可靠的樣本數(shù)據(jù)。,為了得到敏感性問題的可靠的樣本數(shù)據(jù)，必須采取特殊的科學(xué)可行的方法來提高應(yīng)答率、降低不真實(shí)回答率，以使調(diào)查結(jié)果真實(shí)可靠。首先是將保密措施坦誠告訴調(diào)查對象，取得理解和信任，調(diào)查場所要保證沒有他人在場，一般由調(diào)查對象自己在調(diào)查表上填寫；其次需要采取一定的技術(shù)。,敏感問題的調(diào)

25、查,對敏感性問題的調(diào)查方案，關(guān)鍵要使被調(diào)查者愿意做出真實(shí)回答，又能保守個人秘密。一旦調(diào)查方案設(shè)計(jì)有誤，被調(diào)查者就會拒絕配合，所得調(diào)查數(shù)據(jù)將會失去真實(shí)性。心理學(xué)家與統(tǒng)計(jì)學(xué)家為此設(shè)計(jì)了一種調(diào)查方法，一些統(tǒng)計(jì)分析方法——隨機(jī)化回答技術(shù)，也應(yīng)運(yùn)而生。,隨機(jī)化回答技術(shù)(Randomized Response Technique，RRT),是指在調(diào)查中使用特定的隨機(jī)化裝置，使得被調(diào)查者以預(yù)定的概率P來回答敏感性問題。這一技術(shù)的

26、宗旨就是最大限度地為被調(diào)查者保守秘密，從而取得被調(diào)查者的信任。,隨機(jī)化回答技術(shù),比如在調(diào)查學(xué)生考試作弊的問題中，設(shè)計(jì)外形完全一樣的卡片n張，其中n1張卡片上寫上“你考試是否作過弊?”，n-n1張卡片上寫上另外的問題。然后放在一盒子里。調(diào)查時，由被調(diào)查者從盒子里任抽一卡片，根據(jù)卡片上的問題做出回答，至于卡片上具體是什么問題，調(diào)查者無權(quán)過問。這樣就起到了為被調(diào)查者保密的作用。因而相對于直接問答調(diào)查，易于得到被調(diào)查者的合作。,隨機(jī)化回答技術(shù)

27、是由美國社會學(xué)家Warner于1965年首先提出并用于敏感問題調(diào)查。,隨機(jī)應(yīng)答技術(shù)的類型沃納隨機(jī)化回答模型,西蒙斯模型（Simmons model）,沃納隨機(jī)化回答模型調(diào)查模型的基本思想是：為了調(diào)查某個敏感問題，同時列出兩個存在相關(guān)關(guān)系的問題制成卡片，被調(diào)查者隨機(jī)抽取卡片進(jìn)行回答。,具體的做法是：要調(diào)查的敏感性問題，列出正反兩個問題。如調(diào)查考試作弊問題，就作成兩種卡片： A、你在考試中作了弊嗎

28、？ B、你在考試中沒有作弊嗎？,然后由被調(diào)查者隨機(jī)抽取一張來回答“是”或“否”，至于卡片上具體是什么問題，調(diào)查者無權(quán)過問。因此，調(diào)查人員并不知道被調(diào)查者在回答那一個問題，而達(dá)到對被調(diào)查者個人秘密的保密作用。,沃納隨機(jī)化回答模型,要求被調(diào)查者從中隨機(jī)抽取一個回答而調(diào)查人員不知道其具體抽中的是哪一個問題，但問題A的比例P是確定的。如果他所抽到的問題與自己情況一致則回答“是”，否則回答“不是”。,,,沃納隨機(jī)化回答模型

29、,沃納隨機(jī)化回答模型,設(shè) 是具有敏感性特征的人所占的比例，p是寫有問題“你屬于A嗎?”的卡片所占的比例。如果對n人進(jìn)行調(diào)查，調(diào)查結(jié)果中有n1個人回答“是”，有n-n1個人回答“否” ，統(tǒng)計(jì)結(jié)果中回答“是”的人的比例 =n1/n，對問題A回答“是”的人數(shù)比例為。于是：,,的極大似然估計(jì)為：,,,其方差為：,公式：,印度教育當(dāng)局研究大學(xué)生中酗酒的流行程度。如果一個學(xué)生在調(diào)查前的一個月內(nèi)飲酒至少1250毫升，則稱他（

30、她）是一個酗酒者。在這個定義下，從加爾各答市大學(xué)生中簡單隨機(jī)有放回地抽取了若干名大學(xué)生，目標(biāo)是估計(jì)加爾各答大學(xué)中酗酒者所占的比例。,實(shí)例：,隨機(jī)抽取了100名大學(xué)生，所用隨機(jī)化裝置為一裝有60個卡片的盒子。盒子中有45張卡片上寫有問題 “在上一個月你是否至少飲酒1250毫升?”（問題 A），剩余的15張卡片上寫有問題“在上一個月內(nèi)你是否飲酒少于1250毫升?” 調(diào)查時，在沒有調(diào)查員觀察

31、的情況下，被調(diào)查者把盒子中的卡片搖勻后從中隨機(jī)抽取一張，而后根據(jù)所抽到的卡片上的問題如實(shí)地回答“是”或“不是”。調(diào)查結(jié)果為：有28個人回答了“是”，72個人回答“不是”。,寫有敏感問題A的卡片占全部卡片的比例為 p=0.75，回答“是”的人數(shù)占總?cè)藬?shù)的比例 =n1/n=0.28,,有：n=100，n1=28，p=0.75，因此有：,=0.008145,,,=[0.28-0.25]/0.5=0.06,也即有6%的人是酗酒者。根

32、據(jù),沃納的方法雖然比直接提出敏感性問題要好，但所提的兩個問題都還具有敏感性。而且，該方法中回答A的人數(shù)比例不能為1/2。1967年西蒙斯對沃納模型進(jìn)行了改進(jìn)。,西蒙斯模型（Simmons model）,他所建立的模型與沃納模型最大的不同點(diǎn)：在于調(diào)查人員提出的隨機(jī)化問題是兩個不相關(guān)的問題，其中一個為敏感性問題，另一個為非敏感性問題B，這樣的處理使被調(diào)查者的合作態(tài)度進(jìn)一步提高。,設(shè)樣本中對問題B（無關(guān)問題）回答“是”的人數(shù)比例為,西蒙斯模型

33、（Simmons model）,對問題A回答“是”的人數(shù)比例,統(tǒng)計(jì)結(jié)果中回答“是”的人的比例，也就是對問題A或B回答“是”的人數(shù)比例,1. 已知的情況設(shè)抽樣方式是簡單隨機(jī)有放回的,,是具有敏感性特征A的人所占的比例。,設(shè)總體為n的簡單隨機(jī)樣本中，有n1人回答“是”，則,,,其方差為：,西蒙斯模型（Simmons model）,實(shí)踐中，并不總是已知的，例如對于無關(guān)問題“你是四月份出生的嗎?”我們可以通過查有關(guān)資

34、料來獲得的值，而對于無關(guān)問題“你喜歡藍(lán)色嗎?”我們就無法預(yù)知的值，此時就是未知的。因此有必要對未知的情況進(jìn)行討論。,2. 未知的情況,敏感性問題占的比例分別為和,假設(shè)總體1中回答敏感性問題的人占的比例為時,對問題A或B作出“是”的答復(fù)者所占的比例為,假設(shè)總體2中回答敏感性問題的人占的比例為,對這兩個問題作出“是”的答復(fù)者的比例為,,這時需要抽取

35、兩個隨機(jī)樣本進(jìn)行調(diào)查。設(shè)這兩個樣本的容量分別為和,從而得到該敏感問題的估計(jì)回答：,,其方差為：,,敏感性問題調(diào)查方法的應(yīng)用,某高校在開展關(guān)于普及性知識的活動中，要求對學(xué)校的學(xué)生是否有過性行為這一問題進(jìn)行抽樣調(diào)查。該調(diào)查問題具有敏感性，運(yùn)用通常采取的調(diào)查方式，調(diào)查根本無法進(jìn)行，因此運(yùn)用了敏感性問題抽樣調(diào)查方法，該高校在校生人數(shù)為6000人，隨機(jī)抽取1500名學(xué)生進(jìn)行抽樣調(diào)查，且分別運(yùn)用了以上的兩種方法，比較統(tǒng)計(jì)結(jié)果。,采用隨機(jī)

36、化的回答技術(shù)設(shè)計(jì)了兩種用信封封裝比例一定的問卷，一種問題為：“你有過性行為嗎？”；另一種問題為：“你沒有過性行為嗎？”。在調(diào)查時，讓同學(xué)任意選取一個信封并回答上面的問題，當(dāng)然調(diào)查人員是不知道該同學(xué)回答的是哪一個問題。,,,,第一種方法：提出兩個都具有敏感性相關(guān)問題,這樣同學(xué)們根據(jù)他們的實(shí)際情況回答抽到的問題，與自己的情況一致的則回答“是”；否則回答“不是”。研究者在設(shè)計(jì)問卷時，設(shè)計(jì)第一種問題占60%，這樣兩個問題所占的比例比較接近，有

37、助于讓被調(diào)查者消除顧慮，我們對收回的問卷進(jìn)行統(tǒng)計(jì)，結(jié)果對兩種問題回答“是”的有638人，占樣本的比例為：,=638/1500=0.4253,已知 =638/1500=0.4253，P=60%,將它代入,,,其方差為：,得到回答第一種問題為“是”的人數(shù)估計(jì)比例：,這樣應(yīng)用第一種方法估計(jì)統(tǒng)計(jì)對問題一回答“是”的比例為：12.65%。標(biāo)準(zhǔn)差的估計(jì)值為：,即 0.064。,我們同樣采用隨機(jī)化的回答技術(shù)設(shè)計(jì)了兩種用信封封裝比例一定的問卷

38、，然而一種問題為：“你有過性行為嗎？”；為了統(tǒng)計(jì)的方便我們選擇了已知的情況,即另一種問題設(shè)計(jì)為：“你是四月份出生的嗎？”。,顯然，第二個問題與我們所要調(diào)查的問題無關(guān)，而且被調(diào)查同學(xué)當(dāng)中是四月份出生的比例我們可以很容易從學(xué)校教務(wù)處學(xué)生信息中心收集到，經(jīng)統(tǒng)計(jì)該校學(xué)生中四月份出生者所占的比例為15.38%。其中設(shè)計(jì)的問卷中第一種問題同樣占60%，統(tǒng)計(jì)結(jié)果為對兩種問題回答“是”的有206人，占樣本的比例為：,,p,,第二種方法：提出

39、的兩個問題，一個為敏感性問題，另一個為與調(diào)查內(nèi)容無關(guān)的非敏感性問題。,,得到回答第一種問題為“是”的人數(shù)估計(jì)比例：,,=206/1500=0.1373，將它代入,,,其方差為：,可以看出采用兩種調(diào)查技術(shù)，最終得出的結(jié)果是接近的,七、概率論與數(shù)理統(tǒng)計(jì)的應(yīng)用綜述,1、參數(shù)估計(jì)方法2、假設(shè)檢驗(yàn)方法3、相關(guān)分析方法4、回歸分析方法5、方差分析方法6、隨機(jī)過程應(yīng)用,假設(shè)檢驗(yàn),假設(shè)檢驗(yàn)是對總體的分布函數(shù)的形式或分布中某些參數(shù)做出某種假設(shè),

40、然后通過抽取樣本,構(gòu)造適當(dāng)?shù)慕y(tǒng)計(jì)量,對假設(shè)的正確性進(jìn)行判斷的過程.,,假設(shè)檢驗(yàn),參數(shù)假設(shè)檢驗(yàn),非參數(shù)假設(shè)檢驗(yàn),總體分布已知，檢驗(yàn)關(guān)于未知參數(shù)的某個假設(shè),總體分布未知時的假設(shè)檢驗(yàn)問題,讓我們看一個例子.,本科概率統(tǒng)計(jì)課程主要研究參數(shù)假設(shè)檢驗(yàn)問題 .較少涉及非參數(shù)假設(shè)檢驗(yàn)。,例：某工廠生產(chǎn)10歐姆的電阻.根據(jù)以往生產(chǎn)的電阻實(shí)際情況,可以認(rèn)為其電阻值 X～N(? , ?2),標(biāo)準(zhǔn)差σ=0.1.現(xiàn)在隨機(jī)抽取10個電阻,測

41、得它們的電阻值為: 9.9, 10.1, 10.2, 9.7, 9.9, 9.9, 10, 10.5, 10.1, 10.2. 試問:從這些樣本,我們能否認(rèn)為該廠生產(chǎn)的電阻的平均值?為10歐姆?,方差分析,在工農(nóng)業(yè)生產(chǎn)和科學(xué)研究中,經(jīng)常遇到這樣的問題:影響產(chǎn)品產(chǎn)量、質(zhì)量的因素很多,我們需要了解在這眾多的因素中,哪些因素對影響產(chǎn)品產(chǎn)量、質(zhì)量有顯著影響.為此,要先做試驗(yàn),然后對測試的結(jié)果進(jìn)行分析.方差分析就是分析測試結(jié)果的

42、一種方法.,在方差分析中,把在試驗(yàn)中變化的因素稱為因子,用A、B、C、...表示;因子在試驗(yàn)中所取的不同狀態(tài)稱為水平,因子A的r個不同水平用A1、A2、...、Ar表示.,設(shè)在某試驗(yàn)中,因子A有r個不同水平A1,A2,...,Ar,在Ai水平下的試驗(yàn)結(jié)果Xi服從正態(tài)分布N(μi,σ2),i=1,2,...,r,且X1,X2,...,Xr間相互獨(dú)立.現(xiàn)在水平Ai下做了ni次試驗(yàn),獲得了ni個試驗(yàn)結(jié)果Xij,j=1,2,...,ni這可以看

43、成是取自Xi的一個容量為ni的樣本,i=1,2,...,r.,單因子方差分析,基本概念,例:為尋求適應(yīng)本地區(qū)的高產(chǎn)油菜品種,今選了五種不同品種進(jìn)行試驗(yàn),每一品種在四塊試驗(yàn)田上得到在每一塊田上的畝產(chǎn)量如下:,我們要研究的問題是諸不同品種的平均畝產(chǎn)量是否有顯著差異.,在本例中只考慮品種這一因子對畝產(chǎn)量的影響,五個不同品種就是該因子的五個不同水平.由于同一品種在不同田塊上的畝產(chǎn)量不同,我們可以認(rèn)為一個品種的畝產(chǎn)量就是一個總體,在方差分析中總假

44、定各總體獨(dú)立地服從同方差正態(tài)分布,即第i個品種的畝產(chǎn)量是一個隨機(jī)變量,它服從分布N(μi,σ2), i=1,2,3,4,5.,試驗(yàn)的目的就是要檢驗(yàn)假設(shè) H0:μ1=μ2=μ3=μ4=μ5是否成立.若是拒絕 ,那么我們就認(rèn)為這五種品種的平均畝產(chǎn)量之間有顯著差異;反之,就認(rèn)為各品種間產(chǎn)量的不同是由隨機(jī)因素引起的.方差分析就是檢驗(yàn)假設(shè)的一種方法.,本質(zhì)上,方差分析是檢驗(yàn)同方差的若干正態(tài)總體均值是否相等的一種統(tǒng)計(jì)方法.,

45、在實(shí)際問題中影響總體均值的因素可能不止一個.我們按試驗(yàn)中因子的個數(shù),可以有單因子方差分析,雙因子分析,多因子分析等.例中是一個單因子方差分析問題.,相關(guān)軟件,MATLABEXCEL,《MATLAB數(shù)理統(tǒng)計(jì)》科學(xué)出版社EXCEL《概率論與數(shù)理統(tǒng)計(jì)教程》魏宗舒高教出版社第九章《MATLAB概率論與數(shù)理統(tǒng)計(jì)分析》,參考書推薦,《數(shù)學(xué)模型》姜啟源《數(shù)學(xué)建模方法及其應(yīng)用》韓中庚《概率論與數(shù)理統(tǒng)計(jì)教程》茆詩松《概率論與數(shù)理統(tǒng)計(jì)教程》

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

[學(xué)習(xí)]概率統(tǒng)計(jì)模型講座ppt

文檔簡介

溫馨提示

最新文檔

評論

[學(xué)習(xí)]概率統(tǒng)計(jì)模型講座ppt

文檔簡介

溫馨提示

最新文檔

評論

免費(fèi)下載