c45決策樹(shù)工具 使用說(shuō)明_第1頁(yè)
已閱讀1頁(yè),還剩10頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、C45決策樹(shù)工具使用說(shuō)明1.簡(jiǎn)介:本文檔給出了有關(guān)C45決策樹(shù)方法相關(guān)的一些資料,面向?qū)ο笫茄芯咳藛T。本文檔的內(nèi)容安排如下:1C45決策樹(shù)方法的使用場(chǎng)合描述;2C45決策樹(shù)如何訓(xùn)練,即C45_VC.exe使用說(shuō)明;3C45決策樹(shù)訓(xùn)練結(jié)果如何在代碼中使用,即CAskC45編程說(shuō)明;4C45的外圍工具簡(jiǎn)介;5C45的原理說(shuō)明;6聯(lián)系方式。2.適合用C45解決的問(wèn)題C45是一種決策樹(shù)的算法,可以理解為數(shù)據(jù)挖掘算法的一種。從大規(guī)模的數(shù)據(jù)中挖掘規(guī)

2、律,這里的大規(guī)模數(shù)據(jù)一般是用屬性來(lái)描述,屬性本身可以是連續(xù)量,如語(yǔ)音數(shù)據(jù)的基頻值;也可以使離散量,如句子中詞的個(gè)數(shù);還可以使枚舉量,如26個(gè)詞類,聲韻母類型等。屬性分為輸入屬性,和結(jié)論屬性(或稱決策屬性)。結(jié)論屬性就是我們希望從輸入屬性中得到的結(jié)果,如希望從輸入的詞性序列中預(yù)測(cè)某個(gè)位置是不是L3邊界,或者根據(jù)前后的音調(diào)、基頻等預(yù)測(cè)當(dāng)前的音節(jié)應(yīng)該是哪一類的韻律曲線。結(jié)論屬性必須是枚舉量(當(dāng)然包括布爾量)。而規(guī)律則以決策樹(shù)的形式來(lái)表示,其形

3、式如,在C45_VC.txt或者Screen.txt中可以看到類似的輸出結(jié)果:DecisionTree:e_lv45.8:NeiBuWen(44.0)如果n_lv值大于45.8,結(jié)論屬性應(yīng)該是NewiBuWen。e_lv47.6:如果e_lv屬性值大于47.6的話|n_lv45.8:WaiBuWen(32.0)…注:n_lv=45.8:NeiWen(76.02.0)中的76.0表示到這個(gè)決策分支的有76個(gè)例子,其中2.0是錯(cuò)誤的例子數(shù)目

4、。這里有可能出現(xiàn)小數(shù),這是決策樹(shù)根據(jù)概率計(jì)算過(guò)程中可能將一個(gè)例子劃分到多個(gè)子分支,每個(gè)分支算是(0.幾)個(gè)事例到此。這里同時(shí)給出關(guān)于使用C45決策樹(shù)方法的一些注意事項(xiàng):1)C45是狂揉的,只要你給它輸入屬性和輸出屬性,即使輸出和輸入之間沒(méi)有任何關(guān)系,決策樹(shù)一樣可以給出很不錯(cuò)的決策正確率,尤其是集內(nèi)測(cè)試正確率。2)要避免上述問(wèn)題,兩個(gè)方面重要:(1)集外測(cè)試,集內(nèi)測(cè)試不說(shuō)明問(wèn)題。集外測(cè)試也要有一定的數(shù)目,這樣才可以得到比較可信的測(cè)試結(jié)果。

5、(2)輸入數(shù)據(jù)量,理論上訓(xùn)練例子的個(gè)數(shù)應(yīng)該是所有屬性空間大小的10倍。屬性空間大小計(jì)算為:每個(gè)屬性可能的取值的種類數(shù)的連乘積。比如輸入屬性是3個(gè)詞類,而每個(gè)詞類可能有32種可能,則理論上需要的訓(xùn)練例子數(shù)為:323232=32768個(gè)。當(dāng)然考慮到有些詞類組合不可能出現(xiàn),所需訓(xùn)練例子數(shù)可以籌減。3)理論上,C45能自動(dòng)排除那些不相關(guān)的屬性,但是在訓(xùn)練數(shù)據(jù)稀疏的情況下,決策樹(shù)一樣會(huì)利用那些不相關(guān)的屬性,得到一些結(jié)論。所以不能一咕腦兒把所有的屬

6、性扔給決策樹(shù),還是需要對(duì)輸入屬性與輸出屬性之間有沒(méi)有關(guān)聯(lián)進(jìn)行仔細(xì)的分析。4)決策樹(shù)的結(jié)論屬性不宜太多。超過(guò)20就是很不好了,因?yàn)闆Q策樹(shù)認(rèn)為結(jié)論屬性完全如上,在輸入數(shù)據(jù)文件中,每一個(gè)訓(xùn)練例占一行;在一行中,按照先因素屬性后決策屬性的順序,因素屬性按照說(shuō)明先后的順序依次輸入屬性值,中間用逗號(hào)隔開(kāi),以句號(hào)結(jié)束。從上述討論可以看到,對(duì)C4.5的應(yīng)用的關(guān)鍵就在于如何組織輸入的格式文件和數(shù)據(jù)文件,也就是數(shù)據(jù)的預(yù)處理。yu.tes文件格式和yu.da

7、t完全一樣,但理論上數(shù)據(jù)應(yīng)該不一樣,因?yàn)橐粋€(gè)是訓(xùn)練數(shù)據(jù),一個(gè)是用于測(cè)試開(kāi)放正確率。如果用到C45輔助工具:FeatureAnalysis.exe,則很可能還需要一個(gè)文件:yu.crs,這個(gè)文件格式和yu.dat還是一樣,用于交叉集的測(cè)試。訓(xùn)練集:交叉集:測(cè)試集的例子數(shù)目之比一般為:4:1:1。3.2訓(xùn)練過(guò)程C45的訓(xùn)練過(guò)程利用C45_VC.exe。這是一個(gè)控制臺(tái)(Console)程序,其最基本的調(diào)用格式為:C45_VC.exe–fyu其

8、中f表示后面接了項(xiàng)目名稱,這里是yu。C45_VC.exe還支持多個(gè)參數(shù),這些參數(shù)的設(shè)置對(duì)效果有很多好處,請(qǐng)多加利用,下面一個(gè)一個(gè)說(shuō)明,按使用頻度排序:3.2.1–f項(xiàng)目名后接項(xiàng)目名稱,注意不要.nam后綴名3.2.2–u利用訓(xùn)練生成的決策樹(shù)檢測(cè)對(duì)應(yīng)的.tes文件。3.2.3–s嘗試對(duì)枚舉類型的屬性進(jìn)行聚類分析,比如某個(gè)屬性(記為CiLei)是詞類屬性,有:abcdef…z共26種可能,如果不用s參數(shù),則一旦用到CurrentCiLei

9、屬性,那么會(huì)把決策樹(shù)一下子生成26個(gè)子分支,而用到s參數(shù)之后,則C45_VC自動(dòng)嘗試可能的詞類組合,生成的子分支可能是:||CurrentCiLei=p:1(2.01.0)||CurrentCiLeiinbeghijklruwxyznewold01(0.0)||CurrentCiLeiinacdfmnoqstvngp這樣有助于提高訓(xùn)練的效果。3.2.4–m數(shù)字m后面接的數(shù)字表示當(dāng)一個(gè)決策分支中必須有大于等于數(shù)字個(gè)支撐事例時(shí)才可能繼續(xù)往下

10、細(xì)分。比如m5表示,如果到這個(gè)分支的時(shí)候,還有超過(guò)5個(gè)實(shí)例,那么才嘗試是不是繼續(xù)往下分。這個(gè)參數(shù)有助于提高集外測(cè)試正確率。3.2.5–c數(shù)字c后面接的數(shù)字表示裁減到的比例,決策樹(shù)有個(gè)裁減的概念,先會(huì)生成一個(gè)完整的決策樹(shù),然后進(jìn)行裁減,裁減有助于提高決策樹(shù)的集外測(cè)試正確率,缺省裁減到25%。注意是裁減到原先的25%。后面的數(shù)字必須是整型,c5就表示裁減到原先的5%。裁減越多一般來(lái)說(shuō)集內(nèi)測(cè)試正確率降低而集外測(cè)試效果上升。3.2.6–v數(shù)字輸

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論