隨機森林_第1頁
已閱讀1頁,還剩8頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、隨機森林定義:隨機森林是一個分類器,它有一系列的單株樹決策器h(X,?k);k=1,......來組成其中?k是獨立同分布的隨機變量。再輸入X時,每一棵樹只投一票給它認為最合適的類。在機器學習中,隨機森林是一個包含多個決策樹的分類器,并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定構(gòu)成隨機森林的基礎(chǔ)分類器稱為決策樹。LeoBreiman和AdeleCutler發(fā)展出推論出隨機森林的算法。這個術(shù)語是1995年由貝爾實驗室的TinKamHo所

2、提出的隨機決策森林(romdecisionfests)而來的。這個方法則是結(jié)合Breimans的“Bootstrapaggregating“想法和Ho的“romsubspacemethod““以建造決策樹的集合。隨機森林是一個組合分類器,構(gòu)成隨機森林的基礎(chǔ)分類器是決策樹。決策樹算法決策樹可以視為一個樹狀預測模型,它是由結(jié)點和有向邊組成的層次結(jié)構(gòu)。樹中包含3個節(jié)點:根節(jié)點。內(nèi)部節(jié)點,終節(jié)點(葉子節(jié)點)。決策樹只有一個根節(jié)點,是全體訓練集的

3、結(jié)合。樹中的每個內(nèi)部節(jié)點都是一個分裂問題,它將到達該節(jié)點的樣本按某個特定的屬性進行分割,可以將數(shù)據(jù)集合分割成2塊或若干塊。每個終結(jié)點(葉子節(jié)點)是帶有分裂標簽的數(shù)據(jù)集合,從決策樹的根節(jié)點到葉子節(jié)點的每一條路徑都形成一個類;決策樹的算法很多,例如ID3算法,CART算法等。這些算法均采用自上而下的貪婪的算法,每個內(nèi)部節(jié)點選擇分類效果最好的屬性進行分裂節(jié)點,可以分為兩個或若干個子節(jié)點,繼續(xù)此過程到這可決策樹能夠?qū)⑷坑柧殧?shù)據(jù)準確的分類,或所

4、有屬性都被用到為止。具體步驟如下:1)假設(shè)T為訓練樣本集。2)選擇一個最能區(qū)分T中樣本的一個屬性。3)創(chuàng)建一個數(shù)的節(jié)點,它的值是所選擇的屬性,創(chuàng)建此節(jié)點的子節(jié)點,每個子鏈代表所選屬性的唯一值,適用子鏈的值進一步將樣本細分為子類。對于3)創(chuàng)建的三個子類(1)如果子類的樣本滿足預定義的標準,或者樹的這條路的剩余可選屬性集為空,為沿此路徑的新的樣本指定類別。(2)如果子類不滿足于定義的標準,或者至少有一個屬性能細分樹的路徑,設(shè)T為當前子類樣本

5、的集合,返回步驟2),以下簡單的給出二分樹的結(jié)構(gòu)圖示:根節(jié)點中間節(jié)點葉節(jié)點規(guī)則1規(guī)則1規(guī)則2葉節(jié)點葉節(jié)點林的運行速度非常的塊并且不會產(chǎn)生過度擬合,可以根據(jù)需要來生成任意多的樹?;陔S機樹上的諸多優(yōu)點,隨機森林在當前的機器學習領(lǐng)域是一個新的研究熱點。隨機森林的理論基礎(chǔ)隨機森林之所有那么多的優(yōu)點,是因為有強大的數(shù)學知識做后盾。一個隨機森林是否能夠進行正確的分類,分類的效果如何,以及如何評價隨機森林的分類效果都有數(shù)學知識的基礎(chǔ)。R.F不會過度

6、擬合的保證——大數(shù)定律隨機森林的一個與眾不同的特征就是它不會產(chǎn)生過度擬合。那么它為什么不會產(chǎn)生過度擬合呢?不會產(chǎn)生過度擬合的理論依據(jù)是什么呢?下面解釋這一個問題。給定一系列分類器h(x,θ1),h(x,θ2),,,,,,h(x,θk)隨機取出服從隨機向量YX分布的訓練集。定義邊際函數(shù)為:))((max))(()(jxIayxIaYXhvhvmkkyjkkg?????其中I(.)是示性函數(shù),(.)vka表示取平均。于是,邊際函數(shù)刻畫了在正

7、確分類Y下X的得票超過其他分類的最大平均得票數(shù)的程度。該值越大,表明分類器的置信度越高。泛化誤差由下式得出:)0)((???YXPmPEgYX其中,下標XY表明了概率的定義空間。在隨機森林中,)(xhk=h(x,θk)。當樹的數(shù)目很大時,它會遵循大數(shù)定律,因此樹的結(jié)構(gòu)為:隨著分類樹數(shù)目的增加,由于所有的序列θi,?pE幾乎處處收斂到)0)((max))(((??????jxhyyXhpppYjYX????其中θ是對應單棵樹決策樹的隨機變

8、量,h(x,θ)是基于x和θ的輸出。這以結(jié)果解釋了為什么隨機森林不會隨著分布樹的增加而產(chǎn)生過擬合,但是卻有一個有限的繁華誤差值。它的依據(jù)是大數(shù)定律。在有關(guān)隨機森林的實驗中,裝袋方法和隨機特征選擇并行應用。袋裝方法的每一個新的訓練集都是在原始訓練集中通過一種叫做步步為營法隨機重復采樣得到的。應用這種方法的訓練集一般只能包含原訓練集中大約百分之六十七的樣本,其余的樣本作為袋外數(shù)據(jù),基于新的訓練集生成樹可以充分的成長,不進行剪枝。應用袋裝方法

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論