數理統(tǒng)計1.1_第1頁
已閱讀1頁,還剩50頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第一章 緒論,§1-1 什么是數理統(tǒng)計§1-2 數理統(tǒng)計幾個基本概念§1-3 抽樣分布,學習目標,1. 理解數理統(tǒng)計的涵義2. 理解了解統(tǒng)計研究對象的特點3. 了解統(tǒng)計研究的基本環(huán)節(jié)4. 了解統(tǒng)計學的產生與發(fā)展過程5. 重點掌握數理統(tǒng)計的基本概念與抽樣分布,,§1-1 什么是數理統(tǒng)計,一、統(tǒng)計(Statistics)的涵義 我們先從數理統(tǒng)計學開始,數理統(tǒng)計學是研究收集數據

2、、分析數據并據以對所研究的問題作出一定的結論的科學和藝術。數理統(tǒng)計學所考察的數據都帶有隨機性(偶然性)的誤差。這給根據這種數據所作出的結論帶來了一種不確定性,其量化要借助于概率論的概念和方法。數理統(tǒng)計學與概率論這兩個學科的密切聯(lián)系,正是基于這一點。 Statistics: the science of collecting, analyzing, presenting, and interpreting data. (不列顛百科全書)

3、,統(tǒng)計學起源于收集數據的活動,小至個人的事情,大至治理一個國家,都有必要收集種種有關的數據,如在我國古代典籍中,就有不少關于戶口、錢糧、兵役、地震、水災和旱災等等的記載?,F(xiàn)今各國都設有統(tǒng)計局或相當的機構。當然,單是收集、記錄數據這種活動本身并不能等同于統(tǒng)計學這門科學的建立,需要對收集來的數據進行排比、整理,用精煉和醒目的形式表達,在這個基礎上對所研究的事物進行定量或定性估計、描述和解釋,并預測其在未來可能的發(fā)展狀況。例如

4、根據人口普查或抽樣調查的資料對我國人口狀況進行描述,根據適當的抽樣調查結果,對受教育年限與收入的關系,對某種生活習慣與嗜好(如吸煙)與健康的關系作定量的評估。根據以往一般時間某項或某些經濟指標的變化情況,預測其在未來一般時間的走向等,做這些事情的理論與方法,才能構成一門學問——數理統(tǒng)計學的內容。,這樣的統(tǒng)計學始于何時?恐怕難于找到一個明顯的、大家公認的起點。一種受到某些著名學者支持的觀點認為,英國學者葛朗特在1662年發(fā)

5、表的著作《關于死亡公報的自然和政治觀察》,標志著這門學科的誕生。中世紀歐洲流行黑死病,死亡的人不少。自1604年起,倫敦教會每周發(fā)表一次“死亡公報”,記錄該周內死亡的人的姓名、年齡、性別、死因。以后還包括該周的出生情況——依據受洗的人的名單,這基本上可以反映出生的情況。幾十年來,積累了很多資料,葛朗特是第一個對這一龐大的資料加以整理和利用的人,他原是一個小店主的兒子,后來子承父業(yè),靠自學成才。他因這一部著作被選入當年

6、成立的英國皇家學會,反映學術界對他這一著作的承認和重視。,圖1英國約克大學葛朗特,圖2  帕齊利,這是一本篇幅很小的著作,主要內容為8個表,從今天的觀點看,這只是一種例行的數據整理工作,但在當時則是有原創(chuàng)性的科研成果,其中所提出的一些概念,在某種程度上可以說沿用至今,如數據簡約(大量的、雜亂無章的數據,須注過整理、約化,才能突出其中所包含的信息)、頻率穩(wěn)定性(一定的事件,如“生男”、“生女”,在較長時期中有一個基本穩(wěn)定的比率

7、,這是進行統(tǒng)計性推斷的基礎)、數據糾錯、生命表(反映人群中壽命分布的情況,至今仍是保險與精算的基礎概念)等。,葛朗特的方法被他同時代的政治經濟學家佩蒂引進到社會經濟問題的研究中,他提倡在這類問題的研究中不能尚空談,要讓實際數據說話,他的工作總結在他去世后于1690年出版的《政治算術》一書中。,圖4:高斯,當然,也應當指出,他們的工作還停留在描述性的階,不是現(xiàn)代意義下的數理統(tǒng)計學,那時,概率論尚處在萌芽的階段,不足以給數理統(tǒng)計學的發(fā)

8、展提供充分的理論支持,但不能由此否定他們工作的重大意義,作為現(xiàn)代數理統(tǒng)計學發(fā)展的幾個源頭之一,他們以及后續(xù)學者在人口、社會、經濟等領域的工作,特別是比利時天文學家兼統(tǒng)計學家凱特勒19世紀的工作,對促成現(xiàn)代數理統(tǒng)計學的誕生起了很大的作用。,數理統(tǒng)計學的另一個重要源頭來自天文和測地學中的誤差分析問題。早期,測量工具的精度不高,人們希望通過多次量測獲取更多的數據,以便得到對量測對象的精度更,圖3 拉普拉斯,高的估計值。量測誤差有隨機性,

9、適合于用概率論即統(tǒng)計的方法處理,遠至伽利略就做過這方面的工作,他對測量誤差的性態(tài)作了一般性的描述,法國大數學家拉普拉斯曾對這個問題進行了長時間的研究,現(xiàn)今概率論中著名的“拉普拉斯分布”,即是他在這研究中的一個產物,這方面最著名且影響深遠的研究成果有二:一是法國數學家兼天文家勒讓德19世紀初(1805)在研究慧星軌道計算時發(fā)明的“最小二乘法”,他在估計過巴黎的子午線長這一工作中,曾使用這個方法?,F(xiàn)今著作中把這一方法的發(fā)明歸

10、功于高斯,但高斯使用這一方法最早見諸文字是1809年,比勒讓德晚。一種現(xiàn)在逐步取得公認——這項發(fā)明系由二人獨立做出,看來使比較妥當的。另外一個重要成果是德國大學者高斯1809年在研究行星繞日運動時提出用正態(tài)分布刻畫測量誤差的分布。正態(tài)分布也常稱為高斯分布,其曲線是鐘形,極象頤和園中玉帶橋那樣的形狀,故有時又稱為“鐘形曲線”,它反映了這樣一種極普通的情況:天下形,圖4:高斯,圖5:連續(xù)型隨機變量,天下形形色色的事物中,“兩頭

11、小,中間大”的居多,如人的身高,太高太矮的都不多,而居于中間者占多數——當然,這只是一個極粗略的描述,要作出準確的描述,須動用高等數學的知識。正是其數學上的特性成為其廣泛應用的根據。,正態(tài)分布在數理統(tǒng)計學中占有極重要的地位,現(xiàn)今仍在常用的許多統(tǒng)計方法,就是建立在“所研究的量具有或近似地具有正態(tài)分布”這個假定的基礎上,而經驗和理論(概率論中所謂“中心極限定理”)都表明這個假定的現(xiàn)實性,現(xiàn)實世界許多現(xiàn)象看來是雜亂無章的,如

12、不同的人有不同的身高、體重。大批生產的產品,其質量指標各有差異 ??磥砗翢o規(guī)則,但它們在總體上服從正態(tài)分布。這一點,顯示在紛亂中有一種秩序存在,提出正態(tài)分布的高斯,一生在多個領域里面有不少重大的貢獻,但在德國10馬克的有高斯圖像的鈔票上,單只畫出了正態(tài)曲線,以此可以看出人們對他這一貢獻評價之高。,,20世紀以前數理統(tǒng)計學發(fā)展的一個重要成果,是19世紀后期由英國遺傳學家兼統(tǒng)計學家高爾頓發(fā)起,并經現(xiàn)代統(tǒng)計學的奠基人之一K&#

13、183;皮爾遜和其他一些英國學者所發(fā)展的統(tǒng)計相關與回歸理論。所謂統(tǒng)計相關,是指一種非決定性的關系如人的身高X與體重Y,存在一種大致的關系,表現(xiàn)在X大(?。r,Y也傾向于大(小),但非決定性的:由X并不能決定Y。現(xiàn)實生活中和各種科技領域中,這種例子很多,如受教育年限與收入的關系,經濟發(fā)展水平與人口增長速度的關系等,都是屬于這種性質,統(tǒng)計相關的理論把這種關系的程度加以量化,而統(tǒng)計回歸則是把有統(tǒng)計相關的變量,如上文的身高X和體

14、重Y的關系的形式作近似的估計,稱為回歸方程,現(xiàn)實世界中的現(xiàn)象往往涉及眾多變量,它們之間有錯綜復雜的關系,且許多屬于非決定性質,相關回歸理論的發(fā)明,提供了一種通過實際觀察去對這種關系進行定量研究的工具,有著重大的認識和實用意義。,到20世紀初年,由于上述幾個方面的發(fā)展,數理統(tǒng)計學已積累了很豐富的成果——在此因篇幅關系,我們不能詳盡無遺地一一列舉有關的重要成果,如抽樣調查的理論和方法方面的進展,但是直到這時為止,我們還不能說

15、現(xiàn)代意義下的數理統(tǒng)計學已經建立起來,其主要標志之一就是這門學問還缺乏一個統(tǒng)一的理論框架,這個任務在20世紀上半葉得以完成,狹義一點說可界定在1921——1938年,起主要作用的是幾位大師級的人物,特別是英國的費歇爾·K·皮爾遜,發(fā)展統(tǒng)計假設檢驗理論的奈曼與E·皮爾遜和提出統(tǒng)計決策函數理論的瓦爾德等。我國已故著名統(tǒng)計學家許寶(1910——1970)在這項工作中也卓有建樹。,自二戰(zhàn)結束迄今,數理統(tǒng)

16、計學有了迅猛的發(fā)展,主要有以下三方面的原因:一是數理統(tǒng)計學理論框架的建立以及概率論和數學工具的進展,為統(tǒng)計理論在面上和向縱深的發(fā)展打開了門徑和提供了手段,許多在早期比較粗略的理論和方法,在理論上得到了完善與深入,并不斷提出新的,論和方法,在理論上得到了完善與深入,并不斷提出新的研究課題;二是實用上的需要,不斷提出了復雜的問題與模型,吸引了學者們的研究興趣;三是電子計算機的發(fā)明與普及應用,一方面提供了必要的計算工具——統(tǒng)計方法的

17、實施往往涉及大量數據的處理與運算,用人力無法在合理的時間內完成,所以在早年,一些統(tǒng)計方法人們雖然知道,但很少付諸實用,就因為是人力所難及。計算機的出現(xiàn)解決了這個問題。而賦予統(tǒng)計方法以現(xiàn)實的生命力。同時,計算機對促進統(tǒng)計理論研究也有助益,統(tǒng)計模擬是其表現(xiàn)之一,在承認上述成就的同時,不少統(tǒng)計學家也指出這一時期發(fā)展中出現(xiàn)的一些問題或偏向,其中主要的一點是,數理統(tǒng)計學理論研究中的“數學化”氣味愈來愈重,相當一部分研究工作停留在數學的層面,早期

18、那種理論研究與現(xiàn)實問題密切結合的優(yōu)良傳統(tǒng)有所淡化,一些學者還提出了補救的建議,對未來統(tǒng)計學發(fā)展的方向進行探討。同時,現(xiàn)實問題愈來愈涉及到大量的,結構復雜的數據,按現(xiàn)行的數理統(tǒng)計學規(guī)范去處理,顯得力所不及,需要一些帶有根本性創(chuàng)新的思路,使統(tǒng)計學的發(fā)展登上一個新的臺階,以適應應用上的需要,考慮這一背景,有的統(tǒng)計學家樂觀地認為數理統(tǒng)計學正面臨一個新的突破。,在上面講述數理統(tǒng)計學的發(fā)展狀況時,我們著重在實際 需要所起的促進作用方面,由于概率

19、論的概念和方法是數 理統(tǒng)計學的理論基礎,概率論的進展也必然對數理統(tǒng)計學 的發(fā)展起促進作用。,概率,又稱幾率,或然率,指一種不確定的情況出現(xiàn)可能性的大小,例如,投擲一個硬幣,“出現(xiàn)國徽”(國徽一面朝上)是一個不確定的情況。因為投擲前,我們無法確定所指情況(“出現(xiàn)國徽”)發(fā)生與否,若硬幣是均勻的且投擲有充分的高度,則兩面的出現(xiàn)機會均等,我們說“出現(xiàn)國徽”的概率是1/2;同時,投擲一個均勻骰子,“出現(xiàn)4點”的概率是1/6,

20、除了這些以及類似的簡單情況外,概率的計算不容易,往往需要一些理論上的假定,在現(xiàn)實生活中則往往用經驗的方法確定概率,例如某地區(qū)有N人,查得其中患某種疾病者有M人,則稱該地區(qū)的人患該種疾病的概率為M/N,這事實上是使用統(tǒng)計方法對發(fā)病概率的一個估計。,概率的概念起源于中世紀以來的歐洲流行的用骰子賭博,這一點不難理解,某種情況出現(xiàn)可能性的大小要能夠體察并引起研究的興趣,必須滿足兩個條件:一是該情況可以在多次重復中被觀察其發(fā)生與否(

21、在多次重復下出現(xiàn)較頻繁的情況有更大的概率),一是該情況發(fā)生與否與當事人的利益有關或為其興趣關注之所在,用骰子賭博滿足這些條件。,當時有一個“分賭本問題”曾引起熱烈的討論,并經歷了長達一百多年才得到正確的解決。在這過程中孕育了概率論一些重要的基本概念,舉該問題的一個簡單情況:甲、乙二人賭博,各出賭注30元,共60元,每局甲、乙勝的機會均等,都是1/2。約定:誰先勝滿3局則他贏得全部賭注60元,現(xiàn)已賭完3局,甲2勝1負,而因故中斷賭

22、情,問這60元賭注該如何分給2人,才算公平,初看覺得應按2:1分配,即甲得40元,乙得20元,還有人提出了一些另外的解法,結果都不正確,正確的分法應考慮到如在這基礎上繼續(xù)賭下去,甲、乙最終獲勝的機會如何,至多再賭2局即可分出勝負,這2局有4種可能結果:甲甲、甲乙、乙甲、乙乙。前3種情況都是甲最后取勝,只有最后一種情況才是乙取勝,二者之比為3:1,故賭注的公平分配應按3:1的比例,即甲得45元,乙15元。,當時的一些學者,如惠更斯、巴斯

23、噶、費爾馬等人,對這類賭情問題進行了許多研究,有的出版了著作,如惠更斯的一本著作曾長期在歐洲作為概率論的教科書,這些研究使原始的概率和有關概念得到發(fā)展和深化。不過,在這個概率論的草創(chuàng)階段,最重要的里程碑是伯努利的著作《推測術》。在他死后的1713年發(fā)表,這部著作除了總結前人關于賭情的概率問題的成果并有所提高外,還有一個極重要的內容,即如今以他的名字命名的“大數律”,大數律是關于(算術)平均值的定理,算術平均值,即若干個數X

24、1、X2……Xn之和除以n,是最常用的一種統(tǒng)計方法,人們經常使用并深信不疑。但其理論根據何在,并不易講清楚, 就是伯努利的大數律要回答的問題,在某種程度上可以說,這個大數律是整個概率論最基本的規(guī)律之一,也是數理統(tǒng)計學的理論基石。,概率論雖發(fā)端于賭博,但很快在現(xiàn)實生活中找到多方面的應用,首先是在人口、保險精算等方面,在其發(fā)展過程中出現(xiàn)了若干里程碑的《機遇的原理》,其第三版發(fā)表于1756年,法國大數學家拉普拉斯的《分析概率論》

25、,發(fā)表于1812年,1933年蘇聯(lián)教學家柯爾莫哥洛夫完成了概率論的公理體系,在幾條簡潔的公理之下,發(fā)展出概率論整座的宏偉建筑,有如在歐幾里得公理體系之下發(fā)展出整部幾何。自那以來,概率論成長為現(xiàn)代數學的一個重要分支,使用了許多深刻和抽象的數學理論,在其影響下,數理統(tǒng)計的理論也日益向深化的方向發(fā)展。,中 國,(1)公元前22世紀的夏禹王朝,分中國為九州,人口為1355萬人,這是我國最早的土地和人口調查資料。(2)西周建立了統(tǒng)計報

26、告制度,經歷春秋戰(zhàn)國,到秦統(tǒng)一中國,形成 了“上計”報告制度。(3)統(tǒng)計被認為是治理國家的重要手段,例如,管子“舉事必成,不知計數不可”,“不明于數而欲大事,猶無舟楫而欲經于水險也?!鼻厣眺眲t指出“強國知十三數”的主張。(4)封建時代,中國的戶籍和田畝統(tǒng)計都有很大發(fā)展。秦始皇建立編戶制,東漢曾進行全國田地測量,唐代計口授田,宋明有田畝魚鱗冊的土地調查地圖。明代人口普查的“戶帖”和“黃冊”。,西 方,(1)埃及在公元前27世紀,為建金

27、字塔和大型農業(yè)灌溉系統(tǒng),進行全國人口和財產調查。(2)公元前15世紀猶太人為了戰(zhàn)爭對以色列進行男丁調查。(3)《舊約》中記載,公元前10世紀前后,猶太國王大衛(wèi)和所羅門對全國進行比較完整的人口和財產調查。(4)公元前6世紀,羅馬帝國以國勢調查作為治理國家的有效手段,規(guī)定每五年一次人口、土地、牲畜、家奴的調查。,,(5)進入封建社會,統(tǒng)計調查往往采取財產目錄的形式,例如公元9世紀,法蘭克福國王查理大帝為編制“國庫財產大綱”而進行包括人

28、口、土地、收入、農產品、畜產品、工業(yè)品的調查。   11世紀英國國王威廉為編“最終稅冊”對全國封建主和自由民的土地占有情況和市民財產狀況進行調查。(6)15至18世紀歐洲封建社會進入繁榮時期,統(tǒng)計更作為說明各國國情的工具,出現(xiàn)了許多以報導國情為內容統(tǒng)計著作,如英國的“死亡公報”。,,以上簡單介紹資本主義社會以前的統(tǒng)計活動,多半是結合賦稅、征兵作中進行,為國家統(tǒng)治階級服務的。隨著資本主義經濟的發(fā)展,特別是現(xiàn)代化大生產,對統(tǒng)計提出了新的

29、要求,大大促進統(tǒng)計活動和統(tǒng)計科學的發(fā)展。經濟統(tǒng)計形成了工業(yè)、農業(yè)、商業(yè)、交通、郵電、海關、銀行、保險等等專業(yè)分支?!  ±纾?790年美國舉辦現(xiàn)代意義的人口普查,并按法律規(guī)定每十年舉辦一次;19世紀初西方各國政府設立專業(yè)的統(tǒng)計機構。19世紀末成立國際統(tǒng)計學會。統(tǒng)計方法也有很大發(fā)展,出現(xiàn)統(tǒng)計學。,二、數理統(tǒng)計學的現(xiàn)實意義與作用,籠統(tǒng)地說,數理統(tǒng)計學的理論和方法,與人類活動的各個領域在不同程度上都有關聯(lián)。因為各個領域內的活動,都得在

30、不同的程度上與數據打交道。都有如何收集和分析數據的問題,因此也就有數理統(tǒng)計學用武之地。我們可以舉幾個例子來說明這一點,如在工業(yè)中生產一種產品,首先有設計的問題,包括配方和工藝條件的選定,這要通過從大量可能的條件組合中,通過分析試驗結果來選定,可能的條件組合很多,選擇哪一部分去做試驗是一個很有講究的問題,在數理統(tǒng)計學中有一個專門分支叫“試驗設計”,就是研究怎樣在盡可能少的試驗次數之下,達到盡可能高效率的分析結果;其次,

31、在生產過程中,由于原材料,設備調整及工藝參數等條件可能的變化,而造成生產條件不正常并導致出現(xiàn)廢品,在統(tǒng)計學中有一門“工序控制”的學問,通過在生產過程中隨時收集數據并用統(tǒng)計方法進行處理,可以監(jiān)測出不正常情況的出現(xiàn)以便隨時加以糾正,避免出大的問題;然后,大批量的產品生產出來后,還有一個通過抽樣檢驗以檢驗其質量是否達到要求,是否可以出廠或為買方所接受的問題,處理這個問題也要使用數理統(tǒng)計方法,在我國現(xiàn)行的國家標準中有一些就與這個

32、問題有關。,圖1 股票分析系統(tǒng),,圖2 經濟統(tǒng)計分析,大的問題;然后,大批量的產品生產出來后,還有一個通過抽樣檢驗以檢驗其質量是否達到要求,是否可以出廠或為買方所接受的問題,處理這個問題也要使用數理統(tǒng)計方法,在我國現(xiàn)行的國家標準中有一些就與這個問題有關。,在農業(yè)上,有關選種,耕作條件,肥料選擇等一系列的問題的解決,都與統(tǒng)計方法的應用有關,在歷史上,現(xiàn)行的一些重要的統(tǒng)計設計與分析方法,就是近代最偉大的數理統(tǒng)計學家費歇爾于上世紀20年代

33、在英國一個農業(yè)試驗站工作時,因研究田間試驗的問題而發(fā)明的。,醫(yī)學與生物學是統(tǒng)計方法應用最多的領域之一,統(tǒng)計學是在有變異的數據中研究和發(fā)現(xiàn)統(tǒng)計規(guī)律的科學,就醫(yī)學而言,人體變異是一個重要的因素,不同的人的情況千差萬別,其對一種藥物和治療方法的反應也各不相同,因此,對一種藥物和治療方法的評價,是一種統(tǒng)計性規(guī)律的問題,不少國家對一種新藥的上市和一種治療方法的批準,都設定了很嚴格的試驗和統(tǒng)計檢驗的要求,又如:許多生活習慣(如吸煙、飲酒

34、、高鹽飲食之類)對健康的影響,環(huán)境污染對健康的影響,都要通過收集大量數據進行統(tǒng)計分析來研究。,對社會現(xiàn)象的研究大量地使用統(tǒng)計方法,因為組成社會的單元——人、家庭、單位、地區(qū)等,都有很大的變異性,如果說,在自然現(xiàn)象中還不乏一些(在誤差可以允許的限度內)嚴格的、確定性的規(guī)律,在社會現(xiàn)象中這種規(guī)律則絕少,因此只能從統(tǒng)計的角度去考察,我們常說,某某措施,某某政策,對大多數人是有利的,這就是一種統(tǒng)計性規(guī)律,因為這種“有利”是指對大多數,

35、而非一切人。在20世紀初,就有統(tǒng)計學家研究過在英國幾種救助貧困的方式的效果的評估,這都是借助抽樣調查并通過復雜的統(tǒng)計分析得出的結果,如今,抽樣調查已經成為研究社會現(xiàn)象的一種最有力的工具,因為全面調查往往不可行,而抽樣調查,從其方案的制定到數據的分析,都是以數理統(tǒng)計學的理論和方法為基礎。,三、統(tǒng)計學發(fā)展前景展望,這個問題在前面第一個問題中曾涉及一點。現(xiàn)在再簡單的補充幾句,前面曾提到,20世紀下半葉以來,由于人們對當時數理統(tǒng)計學發(fā)

36、展中某些偏向進行反思,統(tǒng)計學界就不時地討論到“統(tǒng)計學未來發(fā)展方向”這個問題,自20世紀70年代以來國際上有過一系列以此為主題或涉及此主題的學術會議,臨近上世紀末,更有若干知名的統(tǒng)計學者撰文討論這個問題,當今的情況是:對某些一般的原則性的問題有普遍的共識,但對未來統(tǒng)計學將向那個方向發(fā)展或應當向那個方向發(fā)展這個問題,則不能說已有了廣泛一致的看法和意見,下面只就幾個比較有影響的觀點來談談。,一個大家都同意的原則是,數理統(tǒng)計學的發(fā)展

37、,應當繼承和發(fā)揚早期那種與實際密切結合的優(yōu)良傳統(tǒng),這不是否定理論研究的作用,而是提倡,理論研究的成果應當對分析實際數據有用,美國老一輩著名統(tǒng)計學家圖基早在1960年代就提出,對于那種于分析數據無用的研究成果,其意義僅限于從純數學的角度去評價。,另一種得到比較廣泛認同的觀點,是認同 統(tǒng)計學研究應努力與其他實用學科結合而形成交叉或邊緣學科,這一點目前已有一定的表現(xiàn),如生物統(tǒng)計、醫(yī)藥統(tǒng)計、工業(yè)統(tǒng)計、金融統(tǒng)計等,都是當前發(fā)展很快的熱點

38、,有的學者認為 研究數理統(tǒng)計學必須與另一門專門學問結合,才有可能做出有重要意義的成果。這一點已在若干成功的學者身上得到印證,有個別走得更遠的學者認為,統(tǒng)一的統(tǒng)計學將會因為與其他學科結合發(fā)展而分裂成許多并行的學科,好比一個大國分裂成一些小國,并把這稱為統(tǒng)計學的巴爾干化——與昔日巴爾干半島上統(tǒng)一的南斯拉夫如今分裂為一些小國相比。但是,數理統(tǒng)計學與其他學科結合形成交叉學科這,個引人注目的發(fā)展,是否將導致“統(tǒng)一的”或“一般的”統(tǒng)計學的

39、消亡或衰落,這一點現(xiàn)在看來并不確定,至少多數學者現(xiàn)在還不這么認為。,圖基在1962年在一篇長文中提出“數據分析”的思想,幾十年來得到國際上一些有影響的學者的支持,要全面講清楚這種觀點需要較多的篇幅,這里只就其一個核心的觀點來討論一下,這涉及到對現(xiàn)行的數理統(tǒng)計規(guī)范的地位問題,前面我們曾談到,由于統(tǒng)計學處理的是帶隨機誤差的數所,由分析這種數數據,得出的結論就有可能出錯或不準確,出錯的可能性的大小,不準確的程度如何,需要用概率論的

40、概念和方法作定量的刻畫,在研究統(tǒng)計問題時,必須把這作為一個目標,朝這個方向努力,這就是現(xiàn)行數理統(tǒng)計學的規(guī)范。數理統(tǒng)計學之所以能被承認為一門有嚴格理論基礎的學科,是與遵守這一規(guī)范聯(lián)系在一起的。但是,如果我們真的嚴格遵守這一規(guī)范,則以現(xiàn)在我們的知識水平而言,許多問題將無法下手。于是,學者們只好轉向一些人為的、不太復雜的、用現(xiàn)行數學工具可以處理的模型,這種模型往往有“閉門造車”的缺點而缺乏現(xiàn)實性,圖基的“數據分析”思想的一個觀點是

41、,主張淡化這個規(guī)范。,這種說法有一定的事實根據,可以說,在實用統(tǒng)計學的領域中,這個規(guī)范并不總是得到嚴格遵守的,現(xiàn)在我們有一些統(tǒng)計方法,它用起來有較好的效果,但在理論上并沒有搞清楚其錯誤或偏差的可能性或數量有多大;另外,隨著科技的發(fā)展,不斷提出一些更復雜的模型,以我們現(xiàn)有的知識水平,沒有可能對之作出完全符合上述規(guī)范的處理,而只能退而求其次,尋求一種在實用上可行的解法,當然,應當明確,在研究工作中達不到上述規(guī)范,與從根本上取消或淡

42、化這個規(guī)范是兩回事,一門學科必須有其規(guī)范或科學的定位(回答這門學科是什么的問題,判定其成果的可信性與意義等等,而這不能用籠統(tǒng)的說法,必須用確切的科學語言)。如果用數據分析取代現(xiàn)行的數理統(tǒng)計學,就有一個為數據分析定位的問題,而這至今還沒有一個滿意的解決,以此之故,雖然數據分析的提法獲得不少支持且在實際的統(tǒng)計應用中有所反映(例如現(xiàn)在媒體中常提及的“數據挖掘”Data Mining)。雖然,數據挖掘并不單純是一個統(tǒng)計學課題,它至今

43、尚未能動搖現(xiàn)行數理統(tǒng)計學的主流地位。,除了上述幾種富于原則性的思想外,也有一部分學者致力于在現(xiàn)行統(tǒng)計學的框架下尋求新的生長點,在這方面也有不少的討論或爭論,如關于費歇爾的統(tǒng)計學思想和研究成果的再認識,關于數理統(tǒng)計學中的“頻率學派”與“貝葉斯學派”之間的爭論等,因涉及較多的數學概念,不能在此細談了。,我個人認為,由于統(tǒng)計學是一門有廣泛應用的學科,應用問題的多面性,要求不拘一格的處理方法,應用效果的多目標性以及統(tǒng)計問題的“不完全信

44、息”的性質(指數據并未包含與問題有關的完整信息),也決定了統(tǒng)計方法的發(fā)展不致受某一種思想所支配,因此,至少在可以預見的將來,統(tǒng)計學的進展將是一種“多元”的局面,不會出現(xiàn)某種趨勢占絕對優(yōu)勢的情況。,三、統(tǒng)計研究的基本環(huán)節(jié),統(tǒng)計設計,,收集數據,,整理與分析,,資料積累開發(fā)應用,統(tǒng)計學理論與相關實質性學科理論,統(tǒng)計調查、實驗,描述統(tǒng)計推斷統(tǒng)計,—— 對隨機現(xiàn)象進行觀測、試驗, 以取得有代表性的觀測值,——

45、對已取得的觀測值進行整理、 分析,作出推斷、決策,從而 找出所研究的對象的規(guī)律性,,,四、數理統(tǒng)計的分類,數參估計 (第二章),假設檢驗 (第三章),回歸分析 (第四章),方差分析 (第五章),推斷 統(tǒng)計學,,,正交分析 (第六章),總體 —— 研究對象全體元素組成的集合 所研究的對象的某個(或某些)數量指標的全體,它是一個隨機變量(或多維隨機變量).記為X .,X 的分布函數和數字特征稱為總體的分布函數和數字

46、特征.,§ 1.2 數理統(tǒng)計基本概念,樣本 —— 從總體中抽取的部分個體.,稱 為總體 X 的一個容量為n的樣本觀測值,或稱樣本的一個實現(xiàn).,用 表示, n 為樣本容量.,樣本空間 —— 樣本所有可能取值的集合.,個體 —— 組成總體的每一個元素 即總體的每個數量指標,可看作隨機變量 X 的某個取值.用 表示.,若總體 X 的樣本

47、 滿足:,一般,對有限總體,放回抽樣所得到的樣本為簡單隨機樣本,但使用不方便,常用不放回抽樣代替.而代替的條件是,(1) 與X 有相同的分布,(2) 相互獨立,則稱 為簡單隨機樣本.,簡單隨機樣本,N / n ? 10.,設總體 X 的分布函數為F (x),則樣本,若總體X 的密 d.f.為 f( x),則樣本,的聯(lián)合 d.f.為,的聯(lián)合分布函數為,例如: X1,X2,

48、…,Xn 為取自總體 N(0,1) 的樣本,則其聯(lián)合密度函數,例如 設某批產品共有N 個,其中的次品數為M, 其次品率為,若 p 是未知的,則可用抽樣方法來估計它.,X 服從參數為p 的0-1分布,可用如下表示方法:,從這批產品中任取一個產品,用隨機變量X來描述它是否是次品:,設有放回地抽取一個容量為 n 的樣本,的聯(lián)合分布為,其樣本值為,樣本空間為,若抽樣是無放回的,則前次抽取的結果會影響后面抽取的結果.例如,所以, 當樣本容量

49、 n 與總體中個體數目N 相比很小時, 可將無放回抽樣近似地看作放回抽樣.,例1(P147)隨機地觀測總體X 得8個數據:2.5,3,2.5,3.5,3,2.7,2.5,2,試求X 的一個經驗分布函數。,解,2 < 2.5 = 2.5 = 2.5 < 2.7 < 3 = 3 < 3.5,2 2.5 2.7 3 3.5,1/8 3/8 1/8 2/8 1/8,一般Fn(x

50、)對應分布列:,P(X=xi)=1/n,i=1,2,...,n,,隨機模擬顯示,格列汶科定理,,右連續(xù),設 是取自總體X 的一個樣本,,為一實值連續(xù)函數,且不含有未知參數,,稱,定義,例 是未知參數,,若 ? ,? 已知,則為統(tǒng)計量,是一樣本,,是統(tǒng)計量, 其中,則,常用的統(tǒng)計量,為樣本均值,為樣本方差,為樣本標準差,為樣本的k 階原點矩,為樣本的k 階中心矩,例如,,(5) 順序統(tǒng)

51、計量與極差,為樣本值,且,定義 r.v.,其中,,注 樣本方差 與樣本二階中心矩 的不同,故,推導,2),例1 從一批機器零件毛坯中隨機地抽取10件, 測得其重量為(單位: 公斤): 210, 243, 185, 240, 215, 228, 196, 235, 200, 199求這組樣本值的均值、方差、二階原點矩與二階中心矩.,解,令,例1,則,例2 在總體

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論