專題數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-04-11 格式：ppt 頁(yè)數(shù)：94 大?。?.80MB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

專題數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型_第1頁(yè)

已閱讀1頁(yè)，還剩93頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,2,,4.1 廣義知識(shí) 4.2 關(guān)聯(lián)知識(shí)4.3 分類知識(shí)4.4 預(yù)測(cè)型知識(shí)4.5 偏差型知識(shí),3,4.1 廣義知識(shí),從數(shù)據(jù)分析角度出發(fā)，數(shù)據(jù)挖掘可以分為兩種類型：描述型數(shù)據(jù)挖掘——以簡(jiǎn)潔概述的方式表達(dá)數(shù)據(jù)中的存在一些有意義的性質(zhì)預(yù)測(cè)型數(shù)據(jù)挖掘——通過(guò)對(duì)所提供數(shù)據(jù)集應(yīng)用特定方法分析所獲得的一個(gè)或一組數(shù)據(jù)模型，并將該模型用于預(yù)測(cè)未來(lái)新數(shù)據(jù)的有關(guān)性質(zhì)。,4,4.1 廣義知識(shí),數(shù)據(jù)庫(kù)通常包含了大量細(xì)

2、節(jié)性數(shù)據(jù)，然而用戶卻常常想要得到能以簡(jiǎn)潔描述性方式所提供的概要性總結(jié)(summarized)。這樣的數(shù)據(jù)摘要能夠提供一類數(shù)據(jù)的整體情況描述；或與其它類別數(shù)據(jù)相比較的有關(guān)情況的整體描述。此外用戶通常希望能輕松靈活地獲得從不同角度和分析細(xì)度對(duì)數(shù)據(jù)所進(jìn)行的描述。描述型數(shù)據(jù)挖掘又稱為概念描述，它是數(shù)據(jù)挖掘中的一個(gè)重要組成部分。下面就將主要介紹如何有效地進(jìn)行定性歸納以獲得概念描述的有關(guān)內(nèi)容。,5,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,4.1.1 廣

3、義知識(shí)的概念定義廣義知識(shí)是指類別特征的概括性描述知識(shí)，也稱為概念描述。它反映同類事物共同性質(zhì)，是對(duì)數(shù)據(jù)的概括、精煉和抽象。廣義知識(shí)是對(duì)大量數(shù)據(jù)的歸納、概括，提煉出帶有普遍性的、概括性的描述統(tǒng)計(jì)知識(shí)。,6,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,數(shù)據(jù)庫(kù)中數(shù)據(jù)及對(duì)象在基本概念層次包含了許多細(xì)節(jié)性的數(shù)據(jù)信息。在商場(chǎng)銷售數(shù)據(jù)庫(kù)的商品信息數(shù)據(jù)中，就包含了許多諸如：商品編號(hào)、商品名稱、商品品牌等低層次信息，對(duì)這類大量的數(shù)據(jù)進(jìn)行更高層次

4、抽象以提供一個(gè)概要性描述是十分重要的。例如：對(duì)春節(jié)所銷售商品情況進(jìn)行概要描述，對(duì)于市場(chǎng)和銷售主管來(lái)講顯然是十分重要的。最簡(jiǎn)單的描述型數(shù)據(jù)（廣義知識(shí)）挖掘就是定性歸納。定性歸納常常也稱為概念描述。這里概念描述涉及一組（同一類別）的對(duì)象，諸如：商店?？偷?。概念描述生成對(duì)數(shù)據(jù)的定性描述和對(duì)比定性描述。定性概念描述提供了一個(gè)有關(guān)數(shù)據(jù)整體的簡(jiǎn)潔清晰描述（概念內(nèi)涵）對(duì)比定性概念描述提供了基于多組（不同類別）數(shù)據(jù)的對(duì)比概念描述（概念外延）

5、,7,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,給定存儲(chǔ)在數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)，能夠用簡(jiǎn)潔清晰的高層次抽象泛化名稱來(lái)描述相應(yīng)的定性概念是非常重要的，這樣用戶就可以利用基于多層次數(shù)據(jù)抽象的功能對(duì)數(shù)據(jù)中所存在的一般性規(guī)律進(jìn)行探索。例如在商場(chǎng)數(shù)據(jù)庫(kù)中，銷售主管不用對(duì)每個(gè)顧客的購(gòu)買記錄進(jìn)行檢查，而只需要對(duì)更高抽象層次的數(shù)據(jù)進(jìn)行研究即可。如：對(duì)按地理位置進(jìn)行劃分的顧客購(gòu)買總額、每組顧客的購(gòu)買頻率以及顧客收入情況進(jìn)行更高層次的研究分析。這種多維多層次的數(shù)據(jù)

6、泛化分析與數(shù)據(jù)倉(cāng)庫(kù)中的多維數(shù)據(jù)分析，,8,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,4.1.2 廣義知識(shí)的發(fā)現(xiàn)方法要順利完成概要描述任務(wù)，就需要一個(gè)十分重要的數(shù)據(jù)挖掘功能：數(shù)據(jù)泛化。數(shù)據(jù)泛化是一個(gè)從相對(duì)低層概念到更高層概念且對(duì)數(shù)據(jù)庫(kù)中與任務(wù)相關(guān)的大量數(shù)據(jù)進(jìn)行抽象概述的一個(gè)分析過(guò)程。對(duì)大量數(shù)據(jù)進(jìn)行有效靈活的概述方法主要有兩種1.數(shù)據(jù)立方體2.面向?qū)傩缘囊?guī)約,9,1.數(shù)據(jù)立方體,數(shù)據(jù)立方的維是通過(guò)一系列能夠形成層次的屬性或網(wǎng)格，例如：日期（

7、date）可以包含屬性天、周、月、季和年，這些屬性構(gòu)成了維的網(wǎng)格。利用數(shù)據(jù)立方方法（又稱為OLAP方法）進(jìn)行數(shù)據(jù)泛化，就是在數(shù)據(jù)立方中存放著預(yù)先對(duì)部分或所有維（屬性）的聚合計(jì)算結(jié)果。通常數(shù)據(jù)立方中的數(shù)據(jù)需要經(jīng)過(guò)費(fèi)時(shí)復(fù)雜的運(yùn)算操作（如：sum、count、average），不同的抽象層次均需要進(jìn)行這類運(yùn)算，將這些運(yùn)算與操作結(jié)果存放在這些數(shù)據(jù)立方中，最終所獲得的這些數(shù)據(jù)立方可用于決策支持、知識(shí)發(fā)現(xiàn)，或其它許多應(yīng)用。,10,1.數(shù)據(jù)立方

8、體,對(duì)多維數(shù)據(jù)立方的數(shù)據(jù)泛化和數(shù)據(jù)細(xì)化工作，可以通過(guò)roll up或drill down操作實(shí)現(xiàn)上卷(roll-up)：匯總數(shù)據(jù)消減數(shù)據(jù)立方中的維數(shù)（維規(guī)約），或?qū)傩灾捣夯癁楦邔哟蔚母拍睿ǜ拍罘謱酉蛏吓噬┫裸@(drill-down)：上卷的逆操作由不太詳細(xì)的數(shù)據(jù)到更詳細(xì)的數(shù)據(jù)，可以通過(guò)沿維的概念分層向下或引入新的維來(lái)實(shí)現(xiàn),,12,1.數(shù)據(jù)立方體,數(shù)據(jù)立方方法提供了一種有效的數(shù)據(jù)泛化方法，且構(gòu)成了描述型數(shù)據(jù)挖掘中一個(gè)重要功能

9、。數(shù)據(jù)立方體方法局限性：數(shù)據(jù)類型限制多數(shù)商用數(shù)據(jù)立方的實(shí)現(xiàn)都是將維的類型限制在數(shù)值類型方面，而且將處理限制在簡(jiǎn)單數(shù)值聚合方面。由于許多應(yīng)用涉及到更加復(fù)雜數(shù)據(jù)類型的分析，此時(shí)數(shù)據(jù)立方體的方法應(yīng)用有限。缺乏一定的標(biāo)準(zhǔn)數(shù)據(jù)立方方法并不能解決概念描述所能解決的一些重要問(wèn)題，諸如：在描述中應(yīng)該使用哪些維？在泛化過(guò)程應(yīng)該進(jìn)行到哪個(gè)抽象層次上。這些問(wèn)題均要由用戶負(fù)責(zé)提供答案的。,13,2.面向?qū)傩缘臍w約（Attribure-Oriente

10、d Induction, 簡(jiǎn)稱AOI）,數(shù)據(jù)立方方法是基于數(shù)據(jù)倉(cāng)庫(kù)、預(yù)先計(jì)算的具體實(shí)施方法。該方法在進(jìn)行OLAP或數(shù)據(jù)挖掘查詢處理之前，就已進(jìn)行了離線聚合計(jì)算。而AOI方法是一種在線數(shù)據(jù)分析技術(shù)方法。1989年首次提出基本思想：首先利用關(guān)系數(shù)據(jù)庫(kù)查詢來(lái)收集與任務(wù)相關(guān)的數(shù)據(jù)，并通過(guò)對(duì)任務(wù)相關(guān)數(shù)據(jù)集中各屬性不同值個(gè)數(shù)的檢查完成數(shù)據(jù)泛化操作。數(shù)據(jù)泛化操作是通過(guò)屬性消減或?qū)傩苑夯ㄓ址Q為概念層次提升）操作來(lái)完成的。通過(guò)合并（泛化后）相

11、同行并累計(jì)它們相應(yīng)的個(gè)數(shù)。這就自然減少了泛化后的數(shù)據(jù)集大小。所獲（泛化后）結(jié)果以圖表和規(guī)則等多種不同形式提供給用戶。,14,示例：研究生概念描述,從一個(gè)大學(xué)數(shù)據(jù)庫(kù)的學(xué)生數(shù)據(jù)中挖掘出研究生的概念描述。所涉及的屬性包括：姓名、性別、專業(yè)、出生地、出生日期、居住地、電話和GPA,15,,AOI方法的第一步就是首先利用數(shù)據(jù)庫(kù)查詢語(yǔ)言從大學(xué)數(shù)據(jù)庫(kù)中將（與本挖掘任務(wù)相關(guān)的）學(xué)生數(shù)據(jù)抽取出來(lái)；然后指定一組與挖掘任務(wù)相關(guān)的屬性集（這對(duì)于用戶而言可能比較

12、困難）。例如：假設(shè)根據(jù)屬性城市City、省Province和國(guó)家Country定義出生地（BirthPlace）維，在這些屬性中，用戶或許只考慮了城市屬性。為了對(duì)出生地進(jìn)行泛化處理，就必須將出生地泛化所涉及的其它屬性也包含進(jìn)來(lái)。換句話說(shuō)，系統(tǒng)應(yīng)能自動(dòng)包含省和國(guó)家作為相關(guān)屬性，以便在歸納過(guò)程中可以從城市泛化到更高概念層次。而在另一方面，用戶或許會(huì)提供過(guò)多的屬性，這時(shí)就需要利用前面數(shù)據(jù)預(yù)處理所介紹的數(shù)據(jù)清理和維歸約方法從描述型數(shù)據(jù)挖掘中

13、過(guò)濾掉無(wú)關(guān)或弱相關(guān)的屬性。,16,,AOI的基本操作是數(shù)據(jù)泛化，其所涉及的操作主要有兩種：屬性消除它基于以下規(guī)則進(jìn)行：若一個(gè)屬性（在初始數(shù)據(jù)集中）有許多不同數(shù)值，且（a）該屬性無(wú)法進(jìn)行泛化操作（如：沒(méi)有定義相應(yīng)的概念層次樹(shù)），或（b）它更高層次概念是用其它屬性描述的，這時(shí)該屬性就可以從數(shù)據(jù)集中消去.屬性泛化它是基于以下規(guī)則進(jìn)行：若一個(gè)屬性（在初始數(shù)據(jù)集中）有許多不同數(shù)值，且該屬性存在一組泛化操作，則可以選擇一個(gè)泛化操作對(duì)該屬性進(jìn)

14、行處理。,17,,屬性消減和屬性泛化兩條規(guī)則都表明：若一個(gè)屬性有許多不同值，則應(yīng)對(duì)其應(yīng)用泛化操作。但這也提出一個(gè)問(wèn)題，“究竟一個(gè)屬性應(yīng)有多少不同值才能認(rèn)為是許多呢？”。根據(jù)所涉及屬性或具體應(yīng)用情況，一個(gè)用戶或許選擇一些屬性仍保留在低層次抽象水平而對(duì)其它一些屬性進(jìn)行更高層次的泛化處理。對(duì)泛化抽象層次的控制也是相當(dāng)主觀的，這一控制也稱為屬性泛化控制。若屬性被泛化“過(guò)高”，就將會(huì)導(dǎo)致過(guò)分泛化以致所獲（結(jié)果）規(guī)則變得失去意義。另一方面，若屬

15、性泛化沒(méi)有到達(dá)“足夠高的層次”，那么“亞泛化”也可能同樣會(huì)變得失去意義。因此在基于屬性歸納時(shí)掌握泛化平衡是非常重要的。,18,,有許多控制泛化過(guò)程的方法，以下就是兩種常用的方法屬性泛化閾值控制該技術(shù)就是對(duì)所有屬性統(tǒng)一設(shè)置一個(gè)泛化閾值，或每個(gè)屬性分別設(shè)置一個(gè)閾值；若一個(gè)屬性不同取值個(gè)數(shù)大于屬性泛化閾值，就需要對(duì)相應(yīng)屬性作進(jìn)一步的屬性消減或?qū)傩苑夯僮?。?shù)據(jù)挖掘系統(tǒng)通常都有一個(gè)缺省屬性閾值（一般從2到8）泛化關(guān)系閾值控制若一個(gè)泛化關(guān)

16、系中內(nèi)容不相同的行數(shù)（元組數(shù)）大于泛化關(guān)系閾值，這就需要進(jìn)一步進(jìn)行相關(guān)屬性的泛化工作。否則就不需要作更進(jìn)一步的泛化。通常數(shù)據(jù)挖掘系統(tǒng)都預(yù)置這一閾值（一般為10到30）這兩個(gè)技術(shù)可以串行使用，即首先應(yīng)用屬性閾值控制來(lái)泛化每個(gè)屬性；然后再應(yīng)用泛化關(guān)系閾值控制來(lái)進(jìn)一步減少泛化關(guān)系的（規(guī)模）大小。,19,對(duì)原數(shù)據(jù)集進(jìn)行泛化的處理過(guò)程,20,,21,,初始數(shù)據(jù)集,結(jié)果數(shù)據(jù)集,22,面向?qū)傩詺w約的結(jié)果表示,AOI方法的挖掘結(jié)果可以有多種輸出表示形

17、式。,23,組合表表示,在二維組合表中，每一行代表屬性的一個(gè)值；每一列代表其它屬性的一個(gè)值。在一個(gè)n維組合表中，列可能代表多個(gè)屬性的值并分欄顯示各屬性累計(jì)值,24,用圖（棒圖、餅圖和曲線）表示,25,轉(zhuǎn)換為邏輯規(guī)則形式,通常每個(gè)泛化后的數(shù)據(jù)行代表（概念描述）規(guī)則中的一個(gè)析取項(xiàng)。由于一個(gè)大型數(shù)據(jù)庫(kù)中的數(shù)據(jù)通常具有多種不同的分布；因此一個(gè)泛化后的數(shù)據(jù)行不可能覆蓋或表達(dá)所有（100％）初始數(shù)據(jù)集中的數(shù)據(jù)行。因此定量信息，諸如滿足規(guī)則條件左邊（

18、自然也滿足規(guī)則右邊）數(shù)據(jù)行數(shù)目與初始數(shù)據(jù)集中總行數(shù)之比，可作為所獲概念描述規(guī)則的一個(gè)度量客觀價(jià)值的重要參量，帶有這種參量的概念描述規(guī)則就稱為定量描述規(guī)則。,26,,27,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,4.2 關(guān)聯(lián)知識(shí)4.2.1 關(guān)聯(lián)知識(shí)的概念關(guān)聯(lián)知識(shí)反映一個(gè)事件和其他事件之間依賴或相互關(guān)聯(lián)的知識(shí)，如果兩項(xiàng)或多項(xiàng)屬性之間存在關(guān)聯(lián)，那么其中一項(xiàng)的屬性值就可以依據(jù)其他屬性值進(jìn)行預(yù)測(cè)。關(guān)聯(lián)規(guī)則挖掘就是從大量的數(shù)據(jù)中挖掘出有價(jià)值描述數(shù)

19、據(jù)項(xiàng)之間相互聯(lián)系的有關(guān)知識(shí)。隨著收集和存儲(chǔ)在數(shù)據(jù)庫(kù)中的數(shù)據(jù)規(guī)模越來(lái)越大，人們對(duì)從這些數(shù)據(jù)中挖掘相應(yīng)的關(guān)聯(lián)知識(shí)越來(lái)越有興趣。例如：從大量的商業(yè)交易記錄中發(fā)現(xiàn)有價(jià)值的關(guān)聯(lián)知識(shí)就可幫助進(jìn)行商品目錄的設(shè)計(jì)、交叉營(yíng)銷或幫助進(jìn)行其它有關(guān)的商業(yè)決策。挖掘關(guān)聯(lián)知識(shí)的一個(gè)典型應(yīng)用實(shí)例就是市場(chǎng)購(gòu)物分析“什么商品組或集合顧客多半會(huì)在一次購(gòu)物時(shí)同時(shí)購(gòu)買”,28,,給定: 事務(wù)數(shù)據(jù)庫(kù)，每個(gè)事務(wù)是一系列商品（一個(gè)消費(fèi)者一次購(gòu)買的物品）找到: 所有的規(guī)則

20、，這些規(guī)則能夠表明這些列商品和另一系列商品相關(guān)。E.g., 購(gòu)買汽車配件的人中有98%會(huì)購(gòu)買汽車服務(wù)應(yīng)用* ? Maintenance Agreement (那些商品能夠加強(qiáng)日常消費(fèi)？)家用電器 ? * (那些商品應(yīng)該保持高庫(kù)存？),29,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,4.2.2 關(guān)聯(lián)知識(shí)的發(fā)現(xiàn)方法購(gòu)物模式的關(guān)聯(lián)規(guī)則:支持度與可信度關(guān)聯(lián)規(guī)則的支持度（support）和信任度（confidence）是兩個(gè)度量有關(guān)

21、規(guī)則趣味性的方法。支持度描述了一個(gè)被挖掘出的關(guān)聯(lián)規(guī)則的有用性，信任度描述了一個(gè)被挖掘出的關(guān)聯(lián)規(guī)則的確定性。規(guī)則（computer->financial_management_software）的支持度為2%，就表示所分析的交易記錄數(shù)據(jù)中有2%交易記錄同時(shí)包含電腦和金融管理軟件（即在一起被購(gòu)買）。規(guī)則（computer->financial_management_software）的60信任度則表示有60%的顧客在購(gòu)買電腦

22、的同時(shí)還會(huì)購(gòu)買金融管理軟件。通常如果一個(gè)關(guān)聯(lián)規(guī)則滿足最小支持度閾值（min_support）和最小信任度閾值（min_confidence），那么就認(rèn)為該關(guān)聯(lián)規(guī)則是有意義的；而用戶或?qū)＜铱梢栽O(shè)置最小支持度閾值和最小信任度閾值。,30,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,4.2.2 關(guān)聯(lián)知識(shí)的發(fā)現(xiàn)方法基本概念：一個(gè)數(shù)據(jù)項(xiàng)的集合就稱為項(xiàng)集(Itemset)一個(gè)包含k個(gè)數(shù)據(jù)項(xiàng)（屬性）的項(xiàng)集就稱為k?項(xiàng)集。{computer, finan

23、cial_management_software}就是一個(gè)2-項(xiàng)集。一個(gè)項(xiàng)集的出現(xiàn)頻度就是整個(gè)交易數(shù)據(jù)集中包含該項(xiàng)集的交易記錄數(shù)，這也稱為是該項(xiàng)集的支持度（support count）。若一個(gè)項(xiàng)集的出現(xiàn)頻度大于最小支持度閾值乘以交易記錄集D中記錄數(shù)，那么就稱該項(xiàng)集滿足最小支持度閾值滿足最小支持度閾值所對(duì)應(yīng)的交易記錄數(shù)就稱為最小支持頻度（minimum support count）。滿足最小支持閾值的項(xiàng)集就稱為頻繁項(xiàng)集（frequ

24、ent itemset）。所有頻繁k?項(xiàng)集的集合就記為L(zhǎng)k。,31,Apriori算法,一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁集的算法，使用候選項(xiàng)集找頻繁項(xiàng)集?；舅枷耄喊l(fā)現(xiàn)所有的頻繁項(xiàng)集，根據(jù)定義，這些項(xiàng)集的頻度至少應(yīng)等于（預(yù)先設(shè)置的）最小支持頻度；根據(jù)所獲得的頻繁項(xiàng)集，產(chǎn)生相應(yīng)的強(qiáng)關(guān)聯(lián)規(guī)則。根據(jù)定義這些規(guī)則必須滿足最小信任度閾值。,32,,關(guān)聯(lián)規(guī)則的分類1.基于規(guī)則中處理的變量的類別分類布爾型：性別＝男 -> 職業(yè)

25、=“網(wǎng)絡(luò)工程師”數(shù)值型：2.基于規(guī)則中數(shù)據(jù)的抽象層次分類 3.基于規(guī)則中涉及到的數(shù)據(jù)的維數(shù)分類單維的多維的,33,Apriori算法,Apriori算法是挖掘產(chǎn)生布爾關(guān)聯(lián)規(guī)則所需頻繁項(xiàng)集的基本算法，它也是一個(gè)很有影響的關(guān)聯(lián)規(guī)則挖掘算法。Apriori算法利用了一個(gè)層次順序搜索的循環(huán)方法來(lái)完成頻繁項(xiàng)集的挖掘工作。這一循環(huán)方法就是利用k-項(xiàng)集來(lái)產(chǎn)生(k+1)?項(xiàng)集。具體做法就是：首先，通過(guò)掃描數(shù)據(jù)集，產(chǎn)生一個(gè)大的

26、候選數(shù)據(jù)項(xiàng)集,并計(jì)算每個(gè)候選數(shù)據(jù)項(xiàng)發(fā)生的次數(shù)，然后基于預(yù)先給定的最小支持度生成頻繁1-項(xiàng)集的集合，該集合記作L1；然后基于L1和數(shù)據(jù)集中的數(shù)據(jù)，產(chǎn)生頻繁2-項(xiàng)集L2；用同樣的方法，直到生成頻繁n-項(xiàng)集Ln，其中已不再可能生成滿足最小支持度的（N+1）－項(xiàng)集。最后，從大數(shù)據(jù)項(xiàng)集中導(dǎo)出規(guī)則。每挖掘一層，就需要掃描整個(gè)數(shù)據(jù)庫(kù)一遍。,34,,為提高按層次搜索并產(chǎn)生相應(yīng)頻繁項(xiàng)集的處理效率。 Apriori算法利用了一個(gè)重要性質(zhì)，又稱為A

27、priori性質(zhì)來(lái)幫助有效縮小頻繁項(xiàng)集的搜索空間。,35,Apriori算法中的關(guān)鍵步驟,36,Apriori算法中的關(guān)鍵步驟,37,實(shí)例1,假定最小事務(wù)支持計(jì)數(shù)為2（即min_sup=2/9=22%）,38,,,39,,40,,,41,算法描述,42,,43,,5.2.3 從頻繁項(xiàng)集產(chǎn)生關(guān)聯(lián)規(guī)則,44,,,45,實(shí)例2,46,關(guān)聯(lián)規(guī)則的應(yīng)用,前件和后件規(guī)則中的信任度和支持度,47,關(guān)聯(lián)規(guī)則的表述(Table Form ),48,用圖形

28、可視化的表述關(guān)聯(lián)規(guī)則,49,用圖形可視化的表述關(guān)聯(lián)規(guī)則,50,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,4.2.3 關(guān)聯(lián)規(guī)則應(yīng)用實(shí)例例如某超級(jí)市場(chǎng)的銷售系統(tǒng)，記錄了5個(gè)顧客的購(gòu)物清單,51,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,采用著名的Apriori算法多次掃描數(shù)據(jù)庫(kù)，得出支持度大于（等于）40%的數(shù)據(jù),52,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,對(duì)支持度大于（等于）40%同時(shí)購(gòu)買兩種商品的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),53,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,支持度大于（

29、等于）40%同時(shí)購(gòu)買三種商品的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),54,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,得出下列規(guī)則：（1）買了摩托車的顧客同時(shí)買手套或頭盔的支持度是40% ，置信度是66.6%；（2）買了手套的顧客同時(shí)買摩托車或頭盔的支持度是40%，置信度是66.6%；（3）買了頭盔的顧客同時(shí)買手套或摩托車的支持度是40%，置信度是50%。按照第（1）條關(guān)系，將摩托車降價(jià)以促銷手套或頭盔，就可能賠本；而按照第（3）條關(guān)系，將頭盔降價(jià)以促銷摩托車，

30、就能盈利；利用第（2）條關(guān)系，將手套降價(jià)以促銷摩托車，有可能引不起顧客的興趣。,55,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,4.3 分類知識(shí)4.3.1 分類知識(shí)的概念分類：把給定的數(shù)據(jù)劃分到一定的類別中。分類是預(yù)測(cè)分類標(biāo)號(hào)，即離散型。分類知識(shí)：反映同類事物共同性質(zhì)的特征型知識(shí)和不同事物之間的差異型特征知識(shí)。,56,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,4.3.2 分類知識(shí)的發(fā)現(xiàn)方法分類過(guò)程：首先，在已知訓(xùn)練數(shù)據(jù)集上，根據(jù)屬性特征，為每

31、一種類別找到一個(gè)合理的描述或模型，即分類規(guī)則；其次，根據(jù)規(guī)則對(duì)新數(shù)據(jù)進(jìn)行分類。,57,具體步驟（P83）,1 ：建立一個(gè)模型，描述給定的數(shù)據(jù)類集或概念集（簡(jiǎn)稱訓(xùn)練集）通過(guò)分析由屬性描述的數(shù)據(jù)庫(kù)元組來(lái)構(gòu)造模型。每個(gè)元組屬于一個(gè)預(yù)定義的類，由類標(biāo)號(hào)屬性確定。用于建立模型的元組集稱為訓(xùn)練數(shù)據(jù)集，其中每個(gè)元組稱為訓(xùn)練樣本。由于給出了類標(biāo)號(hào)屬性，因此該步驟又稱為有指導(dǎo)的學(xué)習(xí)。如果訓(xùn)練樣本的類標(biāo)號(hào)是未知的，則稱為無(wú)指導(dǎo)的學(xué)習(xí)（聚類）。學(xué)習(xí)模型

32、可用分類規(guī)則、決策樹(shù)和數(shù)學(xué)公式的形式給出。通常分類學(xué)習(xí)所獲得的模型可以表示為分類規(guī)則形式、決策樹(shù)形式，或數(shù)學(xué)公式形式。,58,具體步驟,2.使用模型進(jìn)行分類首先對(duì)模型分類準(zhǔn)確率進(jìn)行估計(jì)如果一個(gè)學(xué)習(xí)所獲模型的準(zhǔn)確率經(jīng)測(cè)試被認(rèn)為是可以接受的，那么就可以使用這一模型對(duì)未來(lái)數(shù)據(jù)行或?qū)ο螅ㄆ漕悇e未知）進(jìn)行分類。,59,應(yīng)用,信譽(yù)證實(shí)醫(yī)療診斷性能測(cè)試市場(chǎng)營(yíng)銷示例：現(xiàn)有一個(gè)顧客郵件地址數(shù)據(jù)庫(kù)，該數(shù)據(jù)庫(kù)內(nèi)容包含有關(guān)顧客情況的描述（例如年齡

33、、收入、職業(yè)和信用等級(jí)等）。利用分類數(shù)據(jù)挖掘技術(shù)可以將顧客被分類為是否會(huì)成為在本商場(chǎng)購(gòu)買商品的顧客，這個(gè)郵件地址可以給潛在顧客發(fā)送用于促銷的新商品宣傳冊(cè)和將要開(kāi)始的商品打折信息。,60,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,分類規(guī)則的挖掘常用方法：決策樹(shù)方法貝葉斯方法人工神經(jīng)網(wǎng)絡(luò)方法粗集方法遺傳算法,61,對(duì)各種分類方法比較標(biāo)準(zhǔn),預(yù)測(cè)準(zhǔn)確率——描述（學(xué)習(xí)所獲）模型能夠正確預(yù)測(cè)未知對(duì)象類別或（類別）數(shù)值的能力。速度——描述在構(gòu)造和

34、使用模型時(shí)的計(jì)算效率。魯棒性——描述在數(shù)據(jù)帶有噪聲和有數(shù)據(jù)遺失情況下，（學(xué)習(xí)所獲）模型仍能進(jìn)行正確預(yù)測(cè)的能力?？蓴U(kuò)展性——描述對(duì)處理大量數(shù)據(jù)并構(gòu)造相應(yīng)學(xué)習(xí)模型所需要的能力。易理解性——描述學(xué)習(xí)所獲模型表示的可理解程度,62,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,4.4 預(yù)測(cè)型知識(shí)4.4.1 預(yù)測(cè)型知識(shí)的概念預(yù)測(cè)（prediction）是構(gòu)造和使用模型評(píng)估無(wú)標(biāo)號(hào)樣本類，或評(píng)估給定的樣本可能具有的屬性或區(qū)間值預(yù)測(cè)型知識(shí)：根據(jù)時(shí)間

35、序列型數(shù)據(jù)，由歷史的和當(dāng)前的數(shù)據(jù)去推測(cè)未來(lái)的數(shù)據(jù)，也可以認(rèn)為是以時(shí)間為關(guān)鍵屬性的關(guān)聯(lián)知識(shí)。預(yù)測(cè)的目的是從歷史數(shù)據(jù)中自動(dòng)推導(dǎo)出對(duì)給定數(shù)據(jù)的推廣描述，從而能對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)。在這種觀點(diǎn)下，分類和回歸是兩類主要預(yù)測(cè)問(wèn)題。其中分類是預(yù)測(cè)離散或標(biāo)稱值，而回歸用于預(yù)測(cè)連續(xù)或有序值。一般認(rèn)為：用預(yù)測(cè)法預(yù)測(cè)類標(biāo)號(hào)為分類，用預(yù)測(cè)法預(yù)測(cè)連續(xù)值為預(yù)測(cè)。連續(xù)值的預(yù)測(cè)一般用回歸統(tǒng)計(jì)技術(shù)建模?；貧w方法包括：線性回歸、多元回歸、非線性回歸和其他回歸方法等。,

36、63,第5章數(shù)據(jù)挖掘中常用算法,5.3 決策樹(shù)算法用于分類和預(yù)測(cè)。決策樹(shù)學(xué)習(xí)是以樣本為基礎(chǔ)的歸納學(xué)習(xí)方法?；舅惴ㄊ秦澬乃惴?，采用自頂向下的遞歸方式構(gòu)造決策樹(shù)。決策樹(shù)（Decision Tree）又稱為判定樹(shù)，是運(yùn)用于分類的一種樹(shù)結(jié)構(gòu)。其中的每個(gè)內(nèi)部結(jié)點(diǎn)（internal node）代表對(duì)某個(gè)屬性的一次測(cè)試，每條邊代表一個(gè)測(cè)試結(jié)果，葉結(jié)點(diǎn)（leaf）代表某個(gè)類（class）或者類的分布（class distribution），最

37、上面的結(jié)點(diǎn)是根結(jié)點(diǎn)。決策樹(shù)提供了一種展示類似在什么條件下會(huì)得到什么值這類規(guī)則的方法。若要對(duì)一個(gè)實(shí)體分類，從樹(shù)根開(kāi)始進(jìn)行測(cè)試，按特征的取值分枝向下進(jìn)入下層節(jié)點(diǎn)，對(duì)該節(jié)點(diǎn)進(jìn)行測(cè)試，過(guò)程一直進(jìn)行到葉節(jié)點(diǎn)，實(shí)體被判為屬于該葉節(jié)點(diǎn)所標(biāo)記的類別。決策樹(shù)方法有ID3、ID4和ID5等。,64,,這棵決策樹(shù)對(duì)銷售記錄進(jìn)行分類，指出一個(gè)電子產(chǎn)品消費(fèi)者是否會(huì)購(gòu)買一臺(tái)計(jì)算機(jī)“buys_computer”。每個(gè)內(nèi)部結(jié)點(diǎn)（方形框）代表對(duì)某個(gè)屬性的一次檢測(cè)

38、。每個(gè)葉結(jié)點(diǎn)（橢圓框）代表一個(gè)類： buys_computers=yes 或者 buys_computers=no 在這個(gè)例子中，樣本向量為：（age, student, credit_rating; buys_computers）被決策數(shù)據(jù)的格式為:（age, student, credit_rating）輸入新的被決策的記錄，可以預(yù)測(cè)該記錄隸屬于哪個(gè)類。,65,第5章數(shù)

39、據(jù)挖掘中常用算法,5.3.1 信息論的基本原理1.信息論原理信息論是為解決信息傳遞（通信）過(guò)程問(wèn)題而建立的理論，也稱為統(tǒng)計(jì)通信理論。一個(gè)傳遞信息的系統(tǒng)是由信源、信宿、信道組成。信息論把通信過(guò)程看作是在隨機(jī)干擾的環(huán)境中傳遞信息的過(guò)程。在這個(gè)通信模型中，信息源和干擾（噪聲）都被理解為某種隨機(jī)過(guò)程或隨機(jī)序列。先驗(yàn)不確定性——在進(jìn)行實(shí)際通信以前，信宿對(duì)于信源狀態(tài)具有不確定性。后驗(yàn)不確定性——通信結(jié)束之后，信宿仍然具有一定程度的不確定性

40、?！昂篁?yàn)不確定性=先驗(yàn)不確定性”——信宿根本沒(méi)有收到信息?！昂篁?yàn)不確定性=0”——信宿收到了全部信息。,66,第5章數(shù)據(jù)挖掘中常用算法,2.互信息的計(jì)算（1）定義設(shè)S為訓(xùn)練集，訓(xùn)練集中每個(gè)訓(xùn)練樣本有n個(gè)特征（屬性），表示為（A1,A2… An），|S|表示例子總數(shù)；S中有U1、U2兩類，|Ui|表示Ui類例子總數(shù)；特征 Ak處有m個(gè)取值，分別為（V1,V2…Vm）。（2）概率出現(xiàn)概率： Ui類出現(xiàn)概率 P(Ui)= |

41、Ui| / |S|條件概率： Ui類中在特征Ak處，取值Vj的例子集合Vij的條件概率 P(Vj | Ui)= |Vij| / |Ui|子集概率：在特征Ak處，取值Vj的例子集合的概率為 P(Vj)= |Vj| / |S|子集條件概率：在特征Ak處取值Vj的例子，屬于Ui類的例子集合Uii的概率為 P(Ui|Vj)= |Uij| /|Vj|,67,第5章數(shù)據(jù)挖掘中常用算法,（3）信息熵信源數(shù)學(xué)模型[U,P]：消息（符號(hào)）及其

42、發(fā)生概率。自信息I(Ui)：在收到Ui之前，收信者對(duì)信源發(fā)出Ui的不確定性定義為信息符號(hào)Ui的自信息量I(Ui)。它反映消息發(fā)生后所含有的信息量或者消息發(fā)生前的不確定性（隨機(jī)性）。信息熵H(U)：信源輸出前的不確定性（平均）。（4）互信息后驗(yàn)熵H(U/Vj)條件熵H(H/V)平均互信息：I(U,V),68,第5章數(shù)據(jù)挖掘中常用算法,5.3.2 ID3算法1.ID3基本思想在一實(shí)體世界中，每個(gè)實(shí)體用多個(gè)特征來(lái)描述。每個(gè)

43、特征限于在一個(gè)離散集中取互斥的值。每個(gè)實(shí)體在世界中屬于不同的類別，為簡(jiǎn)單起見(jiàn)，假定有兩個(gè)類別，分別為P和N。在這兩個(gè)類別的歸納任務(wù)中，P類和N類的實(shí)體分別稱為概念的正例和反例。將一些已知的正例和反例放在一起便得到訓(xùn)練集。例P108：氣候訓(xùn)練集,69,第5章數(shù)據(jù)挖掘中常用算法,2.ID3算法ID3算法是分類規(guī)則挖掘算法中最有影響的算法。ID3即決策樹(shù)歸納（Induction of Decision Tree）。早期的ID算法只能就兩

44、類數(shù)據(jù)進(jìn)行挖掘（如正類和反類）；經(jīng)過(guò)改進(jìn)后，現(xiàn)在ID算法可以挖掘多類數(shù)據(jù)。待挖掘的數(shù)據(jù)必須是不矛盾的、一致的，也就是說(shuō)，對(duì)具有相同屬性的數(shù)據(jù)，其對(duì)應(yīng)的類必須是唯一的。在ID3算法挖掘后，分類規(guī)則由決策樹(shù)來(lái)表示。,70,第5章數(shù)據(jù)挖掘中常用算法,（1）算法的基本思想 step 1．任意選取一個(gè)屬性作為決策樹(shù)的根結(jié)點(diǎn)，然后就這個(gè)屬性所有的取值創(chuàng)建樹(shù)的分支；step 2．用這棵樹(shù)來(lái)對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行分類，如果一個(gè)葉結(jié)點(diǎn)的所有實(shí)例都屬于同一

45、類，則以該類為標(biāo)記標(biāo)識(shí)此葉結(jié)點(diǎn)；如果所有的葉結(jié)點(diǎn)都有類標(biāo)記，則算法終止；step 3．否則，選取一個(gè)從該結(jié)點(diǎn)到根路徑中沒(méi)有出現(xiàn)過(guò)的屬性為標(biāo)記標(biāo)識(shí)該結(jié)點(diǎn)，然后就這個(gè)屬性所有的取值繼續(xù)創(chuàng)建樹(shù)的分支；重復(fù)算法步驟step 2；這個(gè)算法一定可以創(chuàng)建一棵基于訓(xùn)練數(shù)據(jù)集的正確的決策樹(shù)，然而，這棵決策樹(shù)不一定是簡(jiǎn)單的。顯然，不同的屬性選取順序?qū)⑸刹煌臎Q策樹(shù)。因此，適當(dāng)?shù)剡x取屬性將生成一棵簡(jiǎn)單的決策樹(shù)。在ID3算法中，采用了一種基于信息的啟發(fā)

46、式的方法來(lái)決定如何選取屬性。啟發(fā)式方法選取具有最高互信息——即最高信息增量（information gain）——的屬性，也就是說(shuō)，生成最少分支決策樹(shù)的那個(gè)屬性。,71,第5章數(shù)據(jù)挖掘中常用算法,（2）建樹(shù)算法對(duì)當(dāng)前例子集合，計(jì)算各特征的互信息；選擇互信息最大的特征Ak；把在Ak處取值相同的例子歸于同一子集， Ak取幾個(gè)值就得幾個(gè)子集；對(duì)既含正例又含反例的子集，遞歸調(diào)用建樹(shù)算法；若子集僅含正例或反例，對(duì)應(yīng)分枝上標(biāo)P或N，返

47、回調(diào)用處。,72,實(shí)例計(jì)算,信息熵計(jì)算信息概率P(U1)、P(U2)信息熵H(U)條件熵計(jì)算假設(shè)A1=天氣，V1=晴，V2=多云，V3=雨P(guān)(V1)、 P(V2)、 P(V3)P(U1/V1),P(U2/V1),P(U1/V2),P(U2/V2),P(U1/V3),P(U2/V3)條件熵H(U/V)平均互信息計(jì)算I(U,V),73,第5章數(shù)據(jù)挖掘中常用算法,5.3.3 樹(shù)剪枝剪枝常常利用統(tǒng)計(jì)學(xué)方法，去掉最不可

48、靠、可能是噪音的一些枝條，同時(shí)它也能使樹(shù)得到簡(jiǎn)化而變得更容易理解。兩種剪枝策略：先剪枝（預(yù)剪枝）——限制決策樹(shù)的過(guò)度生長(zhǎng)；后剪枝：待決策樹(shù)生成后再進(jìn)行剪枝。1.先剪枝事先限定最大生長(zhǎng)高度，使決策樹(shù)不能過(guò)度生長(zhǎng)。采用x2檢驗(yàn)、信息增益等度量，評(píng)估每次節(jié)點(diǎn)分裂對(duì)系統(tǒng)性能的增量，如果節(jié)點(diǎn)分裂的增量小于預(yù)先給定的閥值，則不對(duì)該節(jié)點(diǎn)進(jìn)行擴(kuò)展。,74,第5章數(shù)據(jù)挖掘中常用算法,2.后剪枝允許決策樹(shù)過(guò)度生長(zhǎng)，然后根據(jù)一定的規(guī)則，剪

49、去那些不具有一般代表性的節(jié)點(diǎn)和分枝?？梢圆捎米陨隙碌捻樞蚧蜃韵露系捻樞蜻M(jìn)行剪枝。代價(jià)復(fù)雜性剪枝算法：對(duì)于樹(shù)中每個(gè)非樹(shù)葉節(jié)點(diǎn)計(jì)算該子樹(shù)被剪枝會(huì)出現(xiàn)的期望錯(cuò)誤率，如果剪去該節(jié)點(diǎn)導(dǎo)致較高的期望錯(cuò)誤率，則保留該子樹(shù)；否則剪去該子樹(shù)。可以將先剪枝和后剪枝算法交叉使用。,75,第5章數(shù)據(jù)挖掘中常用算法,5.3.4 由決策樹(shù)提取分類規(guī)則獲得簡(jiǎn)單規(guī)則從根到葉的每一條路徑都可以是一條規(guī)則。規(guī)則采用IF-THEN的形式表示。,76,補(bǔ)充

50、內(nèi)容：貝葉斯分類方法,貝葉斯分類是一個(gè)統(tǒng)計(jì)學(xué)分類方法。它們能夠預(yù)測(cè)一個(gè)要進(jìn)行分類判斷的數(shù)據(jù)對(duì)象屬于某個(gè)類別的概率。貝葉斯分類是基于貝葉斯定理（以下將會(huì)介紹）而構(gòu)造出來(lái)的?；矩惾~斯分類（Naïve Bayesian classify，又稱為樸素貝葉斯分類）假設(shè)一個(gè)指定類別中各屬性的取值是相互獨(dú)立的。這一假設(shè)也被稱為：類別條件獨(dú)立，它可以幫助有效減少在構(gòu)造貝葉斯分類時(shí)所需要進(jìn)行的計(jì)算量。對(duì)分類方法進(jìn)行比較的有關(guān)研究

51、結(jié)果表明：基本貝葉斯分類在分類性能上與決策樹(shù)和神經(jīng)網(wǎng)絡(luò)相媲美。在處理大型數(shù)據(jù)庫(kù)時(shí)，貝葉斯分類法已表現(xiàn)出較高的分類準(zhǔn)確性和運(yùn)算性能。,77,背景知識(shí)：貝葉斯定理,設(shè)X為一個(gè)類別未知的數(shù)據(jù)樣本，設(shè)H為某個(gè)假設(shè)，比如數(shù)據(jù)樣本X屬于一個(gè)特定的類別C。對(duì)于分類問(wèn)題，我們的目標(biāo)是確定P(H|X)——給定觀察數(shù)據(jù)樣本X，假設(shè)H成立的概率大小。P(H|X)是后驗(yàn)概率（事后概率），即在條件X下的，H成立的概率。例如：假設(shè)數(shù)據(jù)樣本是水果，描述水果的屬性

52、有顏色和形狀。假定X表示紅色和圓狀，H表示假定X是蘋果的假設(shè)，因此P(H/X)就表示在已知水果X是紅色和圓狀時(shí)，樣品X為蘋果的概率大小。相反，P(H)為先驗(yàn)概率（事前概率）在上述例子中， P(H)就表示對(duì)于任意給定的數(shù)據(jù)樣品為蘋果的概率，而無(wú)論它是看上去顏色和形狀如何。P(H|X)是建立更多信息基礎(chǔ)之上的；而P(H)則與X無(wú)關(guān)。類似的P(X|H)是在條件H下，X成立的后驗(yàn)概率。即若已知H是蘋果，那X是紅色和圓狀的概率可表示

53、為P(X|H) 。P(X)是X的先驗(yàn)概率，即由水果集合中取出一個(gè)樣品是紅的和園的的概率。貝葉斯定理描述了如何根據(jù)P(X)、P(H)和P(X|H)的概率值計(jì)算獲得的P(H|X)：其中，P(X)、P(H)和P(X|H)的概率值可以從（供學(xué)習(xí)使用的）訓(xùn)練數(shù)據(jù)集合中得到。,78,基本貝葉斯分類方法（步驟）,79,,,80,貝葉斯分類的效率如何？,從理論上講與其它分類方法相比，貝葉斯分類具有最小的錯(cuò)誤率。但實(shí)踐上并非總是如此。這

54、是由于其所依據(jù)的類別獨(dú)立性假設(shè)的不確定性，以及缺乏某些概率數(shù)據(jù)造成的。但各種研究結(jié)果表明：與決策樹(shù)和神經(jīng)網(wǎng)絡(luò)分類器相比，貝葉斯分類器在某些情況下可以與之媲美，甚至具有更好的分類效果。貝葉斯分類的另一個(gè)用途就是它可為那些沒(méi)有利用貝葉斯定理的分類方法提供了理論依據(jù)。例如在某些特定假設(shè)情況下，許多神經(jīng)網(wǎng)絡(luò)和曲線擬合算法的輸出都同貝葉斯分類一樣，使得事后概率取最大。,81,,,假設(shè),82,,83,,已知求：數(shù)據(jù)樣品 X=

55、(outlook=sunny,Temp=mild,Humid=high,Wind=weak)PlayTennis?,84,貝葉斯信念網(wǎng)絡(luò),基本貝葉斯分類是基于各類別相互獨(dú)立這一假設(shè)來(lái)進(jìn)行分類計(jì)算的，也就是要求若給定一個(gè)數(shù)據(jù)樣本類別，其樣本屬性的取值應(yīng)是相互獨(dú)立的。這一假設(shè)簡(jiǎn)化了分類計(jì)算復(fù)雜性。若這一假設(shè)成立，則與其它分類方法相比，基本貝葉斯分類是最準(zhǔn)確的；但實(shí)際上變量間的相互依賴情況是較為常見(jiàn)的。貝葉斯信念網(wǎng)絡(luò)就是用于描述這種相互

56、關(guān)聯(lián)的概率分布（聯(lián)合條件概率分布）。該網(wǎng)絡(luò)能夠描述各屬性子集之間有條件的相互獨(dú)立。它提供了一個(gè)圖形模型來(lái)描述其中的因果關(guān)系，而學(xué)習(xí)也正是基于這一模型進(jìn)行的。這一圖形模型就稱為貝葉斯網(wǎng)絡(luò)、貝葉斯信念網(wǎng)絡(luò)（或簡(jiǎn)稱為信念網(wǎng)絡(luò)）。,85,信念網(wǎng)絡(luò)組成,1.有向無(wú)環(huán)圖其中的每一個(gè)結(jié)點(diǎn)代表一個(gè)隨機(jī)變量；每一條?。▋蓚€(gè)結(jié)點(diǎn)間連線）代表一個(gè)概率依賴。若一條弧從結(jié)點(diǎn)Y到結(jié)點(diǎn)Z，那么Y就是Z的一個(gè)父結(jié)點(diǎn)，Z就是Y的一個(gè)子結(jié)點(diǎn)。給定父結(jié)點(diǎn)，每個(gè)變量有條件

57、地獨(dú)立于圖中非子結(jié)點(diǎn)。變量既可取離散值，也可取連續(xù)值。它們既可對(duì)應(yīng)數(shù)據(jù)集中實(shí)際的變量，也可對(duì)應(yīng)數(shù)據(jù)集中的“隱含變量”，以構(gòu)成一個(gè)關(guān)系。,86,,下圖所示就是一個(gè)簡(jiǎn)單的信念網(wǎng)絡(luò)。它表示一個(gè)人患肺癌與他家庭的肺癌史有關(guān)；也與該人是否吸煙有關(guān)。但是與肺氣腫無(wú)關(guān)。,87,信念網(wǎng)絡(luò)組成,2.包含所有變量的條件概率表（Conditional Probability Table, CPT）對(duì)于一個(gè)變量Z，CPT定義了一個(gè)條件分布P(Z|pare

58、nt(Z))；其中parent(Z)表示Z的父結(jié)點(diǎn)。下表是LungCancer的一個(gè)CPT表。它描述了對(duì)于其父結(jié)點(diǎn)每一種組合，LungCancer取沒(méi)個(gè)值的條件概率。,88,,信念網(wǎng)絡(luò)中的內(nèi)部結(jié)點(diǎn)可以被選為輸出結(jié)點(diǎn)，用以代表類別屬性。網(wǎng)絡(luò)中可以有多個(gè)輸出結(jié)點(diǎn)。學(xué)習(xí)推理算法可以用于網(wǎng)絡(luò)。其分類過(guò)程不是返回一個(gè)類別標(biāo)記，而是返回一個(gè)關(guān)于類別屬性的概率分布，即對(duì)每個(gè)類別的預(yù)測(cè)概率。,89,貝葉斯信念網(wǎng)絡(luò)的學(xué)習(xí),在一個(gè)貝葉斯信念網(wǎng)絡(luò)的學(xué)

59、習(xí)或訓(xùn)練過(guò)程中，其網(wǎng)絡(luò)結(jié)構(gòu)必須首先事先確定或從數(shù)據(jù)中推出。網(wǎng)絡(luò)所涉及變量必須是可觀察或隱含在訓(xùn)練數(shù)據(jù)集合中。若隱含在數(shù)據(jù)中，就稱為數(shù)據(jù)遺失或不完全。若網(wǎng)絡(luò)結(jié)構(gòu)已經(jīng)確定并且所涉及變量均為可觀察的，那么就可以進(jìn)行網(wǎng)絡(luò)學(xué)習(xí)了，這其中包括：計(jì)算CPT表的入口，與基本貝葉斯分類方法中的概率計(jì)算過(guò)程類似。,90,,91,,92,,93,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,4.5 偏差型知識(shí)4.5.1 偏差型知識(shí)的概念偏差型知識(shí)：對(duì)差異和極端特例

60、的描述，揭示事物偏離常規(guī)的異?，F(xiàn)象，如標(biāo)準(zhǔn)類外的特例，數(shù)據(jù)聚類外的離群值等。偏差即異常，在數(shù)據(jù)挖掘中也有稱其為“孤立點(diǎn)”之說(shuō)。孤立點(diǎn)探測(cè)和分析是數(shù)據(jù)挖掘中的一個(gè)很特殊的任務(wù)，被稱為孤立點(diǎn)挖掘。,94,第4章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型,4.5.2 偏差型知識(shí)的發(fā)現(xiàn)方法基本方法是，尋找觀測(cè)結(jié)果與參照值之間有意義的差別。最常用的偏差型知識(shí)的發(fā)現(xiàn)方法是異常探測(cè)。異?！炔粚儆诰垲?，也不屬于背景噪聲的點(diǎn)。它們的行為與正常行為有很大不同。

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

專題數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

專題數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類型

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載