高斯混合模型聚類_第1頁
已閱讀1頁,還剩12頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、高斯混合模型詳解高斯混合模型詳解聚類的方法有很多種,kmeans要數(shù)最簡單的一種聚類方法了,其大致思想就是把數(shù)據(jù)分為多個(gè)堆,每個(gè)堆就是一類。每個(gè)堆都有一個(gè)聚類中心(學(xué)習(xí)的結(jié)果就是獲得這k個(gè)聚類中心),這個(gè)中心就是這個(gè)類中所有數(shù)據(jù)的均值,而這個(gè)堆中所有的點(diǎn)到該類的聚類中心都小于到其他類的聚類中心(分類的過程就是將未知數(shù)據(jù)對這k個(gè)聚類中心進(jìn)行比較的過程,離誰近就是誰)。其實(shí)kmeans算的上最直觀、最方便理解的一種聚類方式了,原則就是把最像

2、的數(shù)據(jù)分在一起,而“像”這個(gè)定義由我們來完成,比如說歐式距離的最小,等等。想對kmeans的具體算法過程了解的話,請看這里。而在這篇博文里,我要介紹的是另外一種比較流行的聚類方法GMM(GaussianMixtureModel)。GMM和kmeans其實(shí)是十分相似的,區(qū)別僅僅在于對GMM來說,我們引入了概率。說到這里,我想先補(bǔ)充一點(diǎn)東西。統(tǒng)計(jì)學(xué)習(xí)的模型有兩種,一種是概率模型,一種是非概率模型。所謂概率模型,就是指我們要學(xué)習(xí)的模型的形式是

3、我們要學(xué)習(xí)的模型的形式是P(Y|X)P(Y|X),這樣在分類的過程中,我們通過未知數(shù)據(jù),這樣在分類的過程中,我們通過未知數(shù)據(jù)X可以獲得可以獲得Y取值的一個(gè)取值的一個(gè)概率分布,也就是訓(xùn)練后模型得到的輸出不是一個(gè)具體的值,而是一系列值的概率(對應(yīng)于分類問題來說,概率分布,也就是訓(xùn)練后模型得到的輸出不是一個(gè)具體的值,而是一系列值的概率(對應(yīng)于分類問題來說,就是對應(yīng)于各個(gè)不同的類的概率),然后我們可以選取概率最大的那個(gè)類作為判決對象(算軟分類就

4、是對應(yīng)于各個(gè)不同的類的概率),然后我們可以選取概率最大的那個(gè)類作為判決對象(算軟分類softsoftassignmentassignment)。)。而非概率模型非概率模型,就是指我們學(xué)習(xí)的模型是一個(gè)決策函數(shù)指我們學(xué)習(xí)的模型是一個(gè)決策函數(shù)Y=f(X)Y=f(X),輸入數(shù)據(jù),輸入數(shù)據(jù)X是多少就可是多少就可以投影得到唯一的一個(gè)以投影得到唯一的一個(gè)Y,就是判決結(jié)果(算硬分類,就是判決結(jié)果(算硬分類hardhardassignmentassign

5、ment)。)?;氐紾MM,學(xué)習(xí)的過程就是訓(xùn)練出幾個(gè)概率分布,所謂混合高斯模型混合高斯模型就是指對樣本的概率密度分布進(jìn)行估計(jì),而估計(jì)的模型是幾個(gè)高斯模型加權(quán)之和(具體是幾個(gè)要在模型訓(xùn)練前建立好)。每個(gè)高斯模型就代表了一個(gè)類(一個(gè)Cluster)。對樣本中的數(shù)據(jù)分別在幾個(gè)高斯模型上投影,就會(huì)分別得到在各個(gè)類上的概率。然后我們可以選取概率最大的類所為判決結(jié)果。得到概率有什么好處呢?我們知道人很聰明,就是在于我們會(huì)用各種不同的模型對觀察到的事

6、物和現(xiàn)象做判決和分析。當(dāng)你在路上發(fā)現(xiàn)一條狗的時(shí)候,你可能光看外形好像鄰居家的狗,又更像一點(diǎn)點(diǎn)女朋友家的狗,你很難判斷,所以從外形上看,用軟分類的方法,是女朋友家的狗概率51%,是鄰居家的狗的概率是49%,屬于一個(gè)易混淆的區(qū)域內(nèi),這時(shí)你可以再用其它辦法進(jìn)行區(qū)分到底是誰家的狗。而如果是硬分類的話,你所判斷的就是女朋友家的狗,沒有“多像”這個(gè)概念,所以不方便多模型的融合。從中心極限定理的角度上看,把混合模型假設(shè)為高斯的是比較合理的,當(dāng)然也可以

7、根據(jù)實(shí)際數(shù)據(jù)定義成任何分布的MixtureModel不過定義為高斯的在計(jì)算上有一些方便之處,另外,理論上可以通過增加Model的個(gè)數(shù),用GMM近似任何概率分布?;旌细咚鼓P偷亩x為:其中K為模型的個(gè)數(shù),πk為第k個(gè)高斯的權(quán)重,則為第k個(gè)高斯的概率密度函數(shù),其均值為μk,方差為σk。我們對此概率密度的估計(jì)就是要求πk、μk和σk各個(gè)變量。當(dāng)求出的表達(dá)式后,求和式的各項(xiàng)的結(jié)果就分別代表樣本x屬于各個(gè)類的概率。3、重復(fù)上述兩步驟直到算法收斂(

8、這個(gè)算法一定是收斂的,至于具體的證明請回溯到EM算法中去,而我也沒有具體關(guān)注,以后補(bǔ)上)。最后總結(jié)一下,用GMM的優(yōu)點(diǎn)是投影后樣本點(diǎn)不是得到一個(gè)確定的分類標(biāo)記,而是得到每個(gè)類的概率,投影后樣本點(diǎn)不是得到一個(gè)確定的分類標(biāo)記,而是得到每個(gè)類的概率,這是一個(gè)重要信息。這是一個(gè)重要信息。GMMGMM每一步迭代的計(jì)算量比較大,大于每一步迭代的計(jì)算量比較大,大于kmeanskmeans。GMMGMM的求解辦法基于的求解辦法基于EMEM算法,因此算法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論