樸素貝葉斯分類器的改進(jìn)_第1頁(yè)
已閱讀1頁(yè),還剩4頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、《模式識(shí)別》課程大作業(yè)1樸素貝葉斯分類器的改進(jìn)樸素貝葉斯分類器的改進(jìn)摘要摘要:樸素貝葉斯分類器是一種簡(jiǎn)單而高效的分類器,但是它的屬性獨(dú)立性假設(shè)使其無(wú)法表示現(xiàn)實(shí)世界屬性之間的依賴關(guān)系,以及它的被動(dòng)學(xué)習(xí)策略,影響了它的分類性能。本文從不同的角度出發(fā),討論并分析了三種改進(jìn)樸素貝葉斯分類性能的方法。為進(jìn)一步的研究打下堅(jiān)實(shí)的基礎(chǔ)。關(guān)鍵詞關(guān)鍵詞:樸素貝葉斯;主動(dòng)學(xué)習(xí);貝葉斯網(wǎng)絡(luò)分類器;訓(xùn)練樣本;樹增廣樸素貝葉斯1問(wèn)題描述問(wèn)題描述隨著計(jì)算機(jī)與信息技術(shù)

2、的發(fā)展,人類獲取的知識(shí)和能夠及時(shí)處理的數(shù)據(jù)之間的差距在加大,從而導(dǎo)致了一個(gè)尷尬的境地,即“豐富的數(shù)據(jù)”和“貧乏的知識(shí)”并存。在數(shù)據(jù)挖掘技術(shù)中,分類技術(shù)能對(duì)大量的數(shù)據(jù)進(jìn)行分析、學(xué)習(xí),并建立相應(yīng)問(wèn)題領(lǐng)域中的分類模型。分類技術(shù)解決問(wèn)題的關(guān)鍵是構(gòu)造分類器。分類器是一個(gè)能自動(dòng)將未知文檔標(biāo)定為某類的函數(shù)。通過(guò)訓(xùn)練集訓(xùn)練以后,能將待分類的文檔分到預(yù)先定義的目錄中。常用的分類器的構(gòu)造方法有決策樹、樸素貝葉斯、支持向量機(jī)、k近鄰、神經(jīng)網(wǎng)絡(luò)等多種分類法,在

3、各種分類法中基于概率的貝葉斯分類法比較簡(jiǎn)單,在分類技術(shù)中得到了廣泛的應(yīng)用。在眾多的分類器的構(gòu)造方法與理論中,樸素貝葉斯分類器(NaiveBayesianClassifiers)[1]由于計(jì)算高效、精確度高。并具有堅(jiān)實(shí)的理論基礎(chǔ)而得到了廣泛的應(yīng)用。文獻(xiàn)樸素貝葉斯的原理、研究成果進(jìn)行了具體的闡述。文章首先介紹了樸素貝葉斯分類器,在此基礎(chǔ)上分析所存在的問(wèn)題。并從三個(gè)不同的角度對(duì)樸素貝葉斯加以改進(jìn)。2研究現(xiàn)狀研究現(xiàn)狀樸素貝葉斯分類器(NaveB

4、ayesianClassifier)是一種基于Bayes理論的簡(jiǎn)單分類方法,它在很多領(lǐng)域都表現(xiàn)出優(yōu)秀的性能[1][2]。樸素貝葉斯分類器的“樸素”指的是它的條件獨(dú)立性假設(shè),雖然在某些不滿足獨(dú)立性假設(shè)的情況下其仍然可能獲得較好的結(jié)果[3],但是大量研究表明此時(shí)可以通過(guò)各種方法來(lái)提高樸素貝葉斯分類器的性能。改進(jìn)樸素貝葉斯分類器的方式主要有兩種:一種是放棄條件獨(dú)立性假設(shè),在NBC的基礎(chǔ)上增加屬性間可能存在的依賴關(guān)系;另一種是重新構(gòu)建樣本屬性集

5、,以新的屬性組(不包括類別屬性)代替原來(lái)的屬性組,期望在新的屬性間存在較好的條件獨(dú)立關(guān)系。目前對(duì)于第一種改進(jìn)方法研究得較多[2][4][5]。這些算法一般都是在分類精度和算法復(fù)雜度之間進(jìn)行折衷考慮,限制在一定的范圍內(nèi)而不是在所有屬性構(gòu)成的完全網(wǎng)中搜索條件依賴關(guān)系。雖然如此,尋找條件依賴關(guān)系依然需要較復(fù)雜的算法。而通過(guò)重新構(gòu)建樣本屬性集的方式則可以避免尋找條件依賴關(guān)系,保持樸素貝葉斯分類器的簡(jiǎn)單和直觀。事實(shí)上,屬性構(gòu)造方法一直是機(jī)器學(xué)習(xí)領(lǐng)

6、域中重要的方法之一,在決策樹、規(guī)則學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等方面得到了有效應(yīng)用[6][7]。Pazzani提出了一種構(gòu)建NBC的方法:BSEJ算法,該算法是基于原有屬性的笛卡兒積來(lái)構(gòu)建新的屬性。3算法原理算法原理3.1樸素貝葉斯分類器樸素貝葉斯分類器假定特征向量的各分量間相對(duì)于決策變量是相對(duì)獨(dú)立的,并使用概率規(guī)則來(lái)實(shí)現(xiàn)學(xué)習(xí)或某種推理過(guò)程,即將學(xué)習(xí)或推理的結(jié)果表示為隨機(jī)變量的概率分布。這可以解釋為對(duì)不同可能性的信任程度。它的出發(fā)點(diǎn)就是貝葉斯定理和貝

7、葉斯假設(shè)[3]。假定隨機(jī)向量x,Θ的聯(lián)合分布密度是p(x,Θ),它們的邊際密度分別為p(x),p(Θ)。一般情況下設(shè)X是觀測(cè)向量。Θ是未知參數(shù)向量,通過(guò)觀測(cè)向量獲得未知參數(shù)向量的估計(jì)。貝葉斯定理《模式識(shí)別》課程大作業(yè)3適用于屬性可以分為獨(dú)立的子集合的情況。Kononerko提出一種采用窮盡搜索的屬性分組技術(shù),假定同一組內(nèi)的屬性之間可能是相互依賴的,但組與組之間是滿足獨(dú)立性假設(shè)的屬性集合。也就是說(shuō),獨(dú)立性假設(shè)弱化為這些屬性組之間的獨(dú)立性。

8、但是,這種算法的復(fù)雜性要遠(yuǎn)遠(yuǎn)高于樸素貝葉斯分類器,而且在現(xiàn)實(shí)世界中,屬性可以完全被分成獨(dú)立的子集合只是少數(shù)情況。4.1.2樹增廣的樸素貝葉斯分類器TAN這種結(jié)構(gòu)允許各屬性節(jié)點(diǎn)之間構(gòu)成一樹形結(jié)構(gòu),即若去掉根結(jié)點(diǎn)到各屬性節(jié)點(diǎn)之間的有向弧,各屬性節(jié)點(diǎn)之間形成樹形結(jié)構(gòu)(如圖1)。學(xué)習(xí)該模型結(jié)構(gòu)的典型方法是以條件互信息為評(píng)分函數(shù)的網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)算法,學(xué)習(xí)TAN的一般過(guò)程可描述為:圖1TAN模型(1)計(jì)算各屬性節(jié)點(diǎn)間的條件互信息;(2)以屬性變量為節(jié)

9、點(diǎn),以條件互信息為節(jié)點(diǎn)之間的連接權(quán),構(gòu)造無(wú)向完全圖;(3)生成最大權(quán)張樹;(4)轉(zhuǎn)換無(wú)向的最大權(quán)張樹為有向樹;(5)從類別變量向各屬性節(jié)點(diǎn)引一條有向邊,生成TAN模型。這種方法可以增強(qiáng)樸素貝葉斯分類器的表達(dá)能力,但計(jì)算量明顯變大。4.2樸素貝葉斯分類器的提升提升方法[2](Boosting)總的思想是學(xué)習(xí)一系列分類器,在這個(gè)序列中每一個(gè)分類器對(duì)它前一個(gè)分類器導(dǎo)致的錯(cuò)誤分類例子給予更大的重視。尤其是,在學(xué)習(xí)完分類器Hk之后,增加了Hk導(dǎo)致

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論