樸素貝葉斯分類器的改進

上傳人：奔*** IP屬地：河北更新時間：2024-03-06 格式：doc 頁數(shù)：5 大?。?44.00KB 人氣指數(shù)：12 舉報 版權申訴

已閱讀1頁，還剩4頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

1、《模式識別》課程大作業(yè)1樸素貝葉斯分類器的改進樸素貝葉斯分類器的改進摘要摘要：樸素貝葉斯分類器是一種簡單而高效的分類器，但是它的屬性獨立性假設使其無法表示現(xiàn)實世界屬性之間的依賴關系，以及它的被動學習策略，影響了它的分類性能。本文從不同的角度出發(fā)，討論并分析了三種改進樸素貝葉斯分類性能的方法。為進一步的研究打下堅實的基礎。關鍵詞關鍵詞：樸素貝葉斯；主動學習；貝葉斯網(wǎng)絡分類器；訓練樣本；樹增廣樸素貝葉斯1問題描述問題描述隨著計算機與信息技術

2、的發(fā)展，人類獲取的知識和能夠及時處理的數(shù)據(jù)之間的差距在加大，從而導致了一個尷尬的境地，即“豐富的數(shù)據(jù)”和“貧乏的知識”并存。在數(shù)據(jù)挖掘技術中，分類技術能對大量的數(shù)據(jù)進行分析、學習，并建立相應問題領域中的分類模型。分類技術解決問題的關鍵是構造分類器。分類器是一個能自動將未知文檔標定為某類的函數(shù)。通過訓練集訓練以后，能將待分類的文檔分到預先定義的目錄中。常用的分類器的構造方法有決策樹、樸素貝葉斯、支持向量機、k近鄰、神經(jīng)網(wǎng)絡等多種分類法，在

3、各種分類法中基于概率的貝葉斯分類法比較簡單，在分類技術中得到了廣泛的應用。在眾多的分類器的構造方法與理論中，樸素貝葉斯分類器(NaiveBayesianClassifiers)[1]由于計算高效、精確度高。并具有堅實的理論基礎而得到了廣泛的應用。文獻樸素貝葉斯的原理、研究成果進行了具體的闡述。文章首先介紹了樸素貝葉斯分類器，在此基礎上分析所存在的問題。并從三個不同的角度對樸素貝葉斯加以改進。2研究現(xiàn)狀研究現(xiàn)狀樸素貝葉斯分類器（NaveB

4、ayesianClassifier）是一種基于Bayes理論的簡單分類方法，它在很多領域都表現(xiàn)出優(yōu)秀的性能[1][2]。樸素貝葉斯分類器的“樸素”指的是它的條件獨立性假設，雖然在某些不滿足獨立性假設的情況下其仍然可能獲得較好的結果[3]，但是大量研究表明此時可以通過各種方法來提高樸素貝葉斯分類器的性能。改進樸素貝葉斯分類器的方式主要有兩種：一種是放棄條件獨立性假設，在NBC的基礎上增加屬性間可能存在的依賴關系；另一種是重新構建樣本屬性集

5、，以新的屬性組（不包括類別屬性）代替原來的屬性組，期望在新的屬性間存在較好的條件獨立關系。目前對于第一種改進方法研究得較多[2][4][5]。這些算法一般都是在分類精度和算法復雜度之間進行折衷考慮，限制在一定的范圍內(nèi)而不是在所有屬性構成的完全網(wǎng)中搜索條件依賴關系。雖然如此，尋找條件依賴關系依然需要較復雜的算法。而通過重新構建樣本屬性集的方式則可以避免尋找條件依賴關系，保持樸素貝葉斯分類器的簡單和直觀。事實上，屬性構造方法一直是機器學習領

6、域中重要的方法之一，在決策樹、規(guī)則學習、神經(jīng)網(wǎng)絡等方面得到了有效應用[6][7]。Pazzani提出了一種構建NBC的方法：BSEJ算法，該算法是基于原有屬性的笛卡兒積來構建新的屬性。3算法原理算法原理3.1樸素貝葉斯分類器樸素貝葉斯分類器假定特征向量的各分量間相對于決策變量是相對獨立的，并使用概率規(guī)則來實現(xiàn)學習或某種推理過程，即將學習或推理的結果表示為隨機變量的概率分布。這可以解釋為對不同可能性的信任程度。它的出發(fā)點就是貝葉斯定理和貝

7、葉斯假設[3]。假定隨機向量x，Θ的聯(lián)合分布密度是p(x，Θ)，它們的邊際密度分別為p(x)，p(Θ)。一般情況下設X是觀測向量。Θ是未知參數(shù)向量，通過觀測向量獲得未知參數(shù)向量的估計。貝葉斯定理《模式識別》課程大作業(yè)3適用于屬性可以分為獨立的子集合的情況。Kononerko提出一種采用窮盡搜索的屬性分組技術，假定同一組內(nèi)的屬性之間可能是相互依賴的，但組與組之間是滿足獨立性假設的屬性集合。也就是說，獨立性假設弱化為這些屬性組之間的獨立性。

8、但是，這種算法的復雜性要遠遠高于樸素貝葉斯分類器，而且在現(xiàn)實世界中，屬性可以完全被分成獨立的子集合只是少數(shù)情況。4.1.2樹增廣的樸素貝葉斯分類器TAN這種結構允許各屬性節(jié)點之間構成一樹形結構，即若去掉根結點到各屬性節(jié)點之間的有向弧，各屬性節(jié)點之間形成樹形結構(如圖1)。學習該模型結構的典型方法是以條件互信息為評分函數(shù)的網(wǎng)絡結構學習算法，學習TAN的一般過程可描述為：圖1TAN模型(1)計算各屬性節(jié)點間的條件互信息；(2)以屬性變量為節(jié)

9、點，以條件互信息為節(jié)點之間的連接權，構造無向完全圖；(3)生成最大權張樹；(4)轉(zhuǎn)換無向的最大權張樹為有向樹；(5)從類別變量向各屬性節(jié)點引一條有向邊，生成TAN模型。這種方法可以增強樸素貝葉斯分類器的表達能力，但計算量明顯變大。4.2樸素貝葉斯分類器的提升提升方法[2](Boosting)總的思想是學習一系列分類器，在這個序列中每一個分類器對它前一個分類器導致的錯誤分類例子給予更大的重視。尤其是，在學習完分類器Hk之后，增加了Hk導致

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

樸素貝葉斯分類器的改進

文檔簡介

溫馨提示

最新文檔

評論

樸素貝葉斯分類器的改進

文檔簡介

溫馨提示

最新文檔

評論

免費下載