應(yīng)用概率統(tǒng)計(jì)-(9)_第1頁
已閱讀1頁,還剩45頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第八章 判別分析,判別分析的含義: 根據(jù)給定的若干總體的觀測(cè)資料,構(gòu)造出一個(gè)判別函數(shù),并由此函數(shù)對(duì)于某一樣品屬于哪個(gè)總體做出判斷。 判別分析的主要方法: 距離判別(Distance Discrimination); Bayes 判別;Fisher判別等。,§1 距離判別,判別思想: 根據(jù)樣品到各個(gè)總體的距離的比較,判別其歸屬。 這里樣品到總體的距離指的是樣品到總體均值的距離。

2、,,歐式距離的缺陷: 歐式距離是一種絕對(duì)距離,無法反映出概率上的差異。 當(dāng)分量的性質(zhì)不同時(shí),距離的大小與單位有關(guān)。,,,,,,,,,,,,,,,,,A,,,,,一、馬氏(Mahalanobis)距離設(shè) x、y 是均值向量為μ、協(xié)方差矩陣為V 的總體G 中抽取的兩個(gè)樣品,定義 x、y 之間的馬氏距離為:,定義 x 和總體 G 之間的馬氏距離為:,馬氏距離滿足距離的三條公理。 當(dāng)V=I 時(shí),馬氏距離即為通常的歐式距離。,若變量之

3、間是相互無關(guān)的,則協(xié)方差矩陣為對(duì)角矩陣,二、兩個(gè)總體的判別分析,1. 兩個(gè)總體有相同的協(xié)方差陣:,直觀的判別準(zhǔn)則:,或等價(jià)地描述成:,判別函數(shù): 令 ,則有,W(x) 即為距離判別函數(shù)。,若 已知,令 ,則 W(x)

4、為,稱W (x) 為線性判別函數(shù),a 為判別系數(shù), 為判別常數(shù)。,幾何解釋:總體G1、G2 的支撐之間存在重疊部分。判別就是經(jīng)判別函數(shù)W(x) 建立一個(gè)法則,樣本空間通過W(x) 劃分為兩個(gè)無公共部分的區(qū)域 R1、R2 。,,,,,,G1,G2,R1,R2,x1,x2,錯(cuò)判問題,實(shí)踐中的判別方法:將上述各公式中的總體均值向量和協(xié)方差矩陣,用各自的樣本估值來替代。,2. 兩個(gè)總體的方差不相等,判別法則: 判別函數(shù):,

5、判別規(guī)則:,實(shí)踐中分別用樣本參數(shù)估計(jì) 替代總體中的參數(shù),距離判別的計(jì)算步驟: 列出樣本觀測(cè)陣 計(jì)算樣本均值和離差矩陣: 計(jì)算協(xié)方差陣的無偏估計(jì): 或,計(jì)算樣本協(xié)方差陣的逆矩陣 計(jì)算回報(bào)的誤判率:對(duì)原來的部分或全部樣品,分別計(jì)算到兩個(gè)總體的馬氏距離,并比較大小,作出歸類結(jié)論,記下錯(cuò)判的樣品個(gè)數(shù)。 對(duì)新樣品進(jìn)行判別。,例 在企業(yè)的考核中,可以根據(jù)企業(yè)的生產(chǎn)經(jīng)

6、營(yíng)情況把企業(yè)分為優(yōu)秀企業(yè)和一般企業(yè)??己似髽I(yè)經(jīng)營(yíng)狀況的指標(biāo)有: 資金利潤(rùn)率=利潤(rùn)總額/資金占用總額 勞動(dòng)生產(chǎn)率=總產(chǎn)值/職工平均人數(shù) 產(chǎn)品凈值率=凈產(chǎn)值/總產(chǎn)值 三個(gè)指標(biāo)的均值向量和協(xié)方差矩陣如下?,F(xiàn)有二個(gè)企業(yè),觀測(cè)值分別為 (7.8,39.1,9.6)和(8.1,34.2,6.9),問這兩個(gè)企業(yè)應(yīng)該屬于哪一類?,V={68.39

7、 40.24 21.41, 40.24 54.58 11.67, 21.41 11.67 7.90};mu1={13.5, 40.7, 10.7};mu2={5.4, 29.8, 6.2};mu=(mu1+mu2)/2;arfa=inv(V)*(mu1-mu2);c=t(arfa)*mu;print arfa c;,線性判別函數(shù):,三、多總體的判別,判別思想:將樣本空間劃分成互

8、不相交的m 個(gè)部分,每一部分對(duì)應(yīng)于一個(gè)總體的“勢(shì)力范圍” Ri 。其中,假設(shè)有m 個(gè)總體: ,它們的均值向量和協(xié)方差矩陣分別是,四、距離判別的優(yōu)缺點(diǎn),優(yōu)點(diǎn):計(jì)算簡(jiǎn)單,結(jié)論明確,很實(shí)用。 缺點(diǎn):沒有考慮兩個(gè)總體各自出現(xiàn)的概率; 沒有考慮錯(cuò)判以后造成的損失。,§2 Bayes 判別,Bayes 判別的基本概念 兩個(gè)總體的判別 三群以上的判別,有三個(gè)箱子,分別

9、編號(hào)為1,2,3,1號(hào)箱裝有1個(gè)紅球4個(gè)白球,2號(hào)箱裝有2紅球3白球,3號(hào)箱裝有3紅球. 某人從三箱中任取一箱,從中任意摸出一球,發(fā)現(xiàn)是紅球,求該球是取自1號(hào)箱的概率 .,1,,,,,,1紅4白,該公式于1763年由貝葉斯 (Bayes) 給出. 它是在觀察到事件B已發(fā)生的條件下,尋找導(dǎo)致B發(fā)生的每個(gè)原因的概率。建立在Bayes公式基礎(chǔ)之上的判別方法稱為Bayes判別。,一、Bayes 判別的基本概念,假設(shè)有 m 個(gè)總體為 G1,

10、…,Gm ,對(duì)應(yīng)的概率密度 各不相同。 假設(shè)m 個(gè)總體出現(xiàn)的先驗(yàn)概率分別為: 假設(shè)將屬于Gi 的樣品錯(cuò)判給 Gj 的損失記為C(j|i)。 顯然有 C(i|i)=0 ,C(j|i)≥0 。 假設(shè)判別規(guī)則為: R=(R1, …,Rm )。則根據(jù)此規(guī)則 的錯(cuò)判概率為:,判別法則R把來自總體Gi 的個(gè)體錯(cuò)判給其它總體的 平均損失:,用規(guī)則R進(jìn)行判別

11、的總平均損失:,Bayes 法則:選擇R,使總平均損失g(R) 達(dá)到最小。,二、兩個(gè)總體的判別,規(guī)則的導(dǎo)出,,g(R) 最小當(dāng)且僅當(dāng)R2只包含全部滿足下面條件的點(diǎn)x。,Bayes 判別準(zhǔn)則:R=(R1, R2),G1, G2 為兩個(gè)正態(tài)總體時(shí)的Bayes 判別 假設(shè),則有,其中,距離判別與Bayes判別的比較,q1=q2=1/2, c(2|1)=c(1|2)時(shí), Bayes判別準(zhǔn)則即 為距離判別準(zhǔn)則; 距離判別不要

12、求兩個(gè)總體是正態(tài)總體,也不要 求兩個(gè)總體具有相同的方差陣。,誤判概率的計(jì)算,W(x) 的條件分布,其中,證明:,誤判概率,實(shí)際應(yīng)用問題,判別函數(shù): 先驗(yàn)概率及損失:在無先驗(yàn)信息的情況下,常?。?三、m 個(gè)總體的判別,Bayes 判別的基本定理:假設(shè)有 m 個(gè)總體為G1, …,Gm ,對(duì)應(yīng)的概率密度分別為 損失是{ c(j|i)}, 則劃分R=(R1, …,Rm ) 的Bayes 解為,其中,將x判給Rj的風(fēng)險(xiǎn)密度,

13、證明:,推論:若c(j|i)=1, c(i|i)=0, 則劃分R=(R1, …,Rm ) 的Bayes 解為,2. 多個(gè)正態(tài)總體的判別,當(dāng)各總體的協(xié)方差陣相同時(shí),§3 Fisher判別,基本思想:Fisher借助方差分析的思想來導(dǎo)出線性判別函數(shù)。其思想是:找一個(gè)方向,在這個(gè)方向上要使各總體內(nèi)部盡可能“密集”;而各總體之間盡可能“分開”。然后將觀測(cè)值向這個(gè)方向投影,根據(jù)投影值的大小來進(jìn)行判別。,兩個(gè)總體的費(fèi)歇(Fishe

14、r)判別法,,,?,?,?,?,?,?,?,?,?,?,,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,?,u: 能使總體盡可能分開的方向,x:不能使總體盡可能分開的方向,旋轉(zhuǎn)坐標(biāo)軸至總體單位盡可能分開的方向,此時(shí)分類變量被簡(jiǎn)化為一個(gè),一、Fisher 線性判別函數(shù) 假設(shè)有m 個(gè)總體G1, …,Gm ,xi 表示來自總體Gi 的樣品。對(duì)任一給定的方向u, xi 在該方向上

15、的投影為,記,在u 方向各總體之間的分離程度——組間離差,在u方向各總體內(nèi)部的聚集程度——組內(nèi)離差,Fisher判別的思想:選擇u,B(u)/E(u) 達(dá)到最大。,定義:設(shè)p 維向量u0 滿足,則對(duì)于任意觀測(cè)值x , 稱為Fisher線性判別函數(shù),二、 Fisher線性判別函數(shù)的建立——u 的得出,目標(biāo)函數(shù):,約束條件(保證u的唯一性):,由Lagrange乘數(shù)法得到:,進(jìn)一步推出:,定理: Fisher線性判別函數(shù)中的

16、u0 是E-1B 的最大特征根所對(duì)應(yīng)的特征向量。,三、Fisher判別的計(jì)算步驟: 列出樣本觀測(cè)陣(共m 個(gè)) 計(jì)算樣本均值 計(jì)算 計(jì)算各總體的離差陣Si 及 和,計(jì)算 及其最大特征值λ1并求與之對(duì)應(yīng)的單位特征向量u1。 回代樣品進(jìn)行判別:對(duì)每一個(gè)樣品x,分別計(jì)算其在u1 方向上的投影到各個(gè)總體的均值到u1 方向上的投影的馬氏距離,并比較大小,作出歸類結(jié)論,記下錯(cuò)判的樣品個(gè)數(shù)。 對(duì)新樣品進(jìn)行判

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論