數(shù)據(jù)挖掘原語和語言_第1頁
已閱讀1頁,還剩37頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘原語、語言和系統(tǒng)結(jié)構(gòu),為什么要數(shù)據(jù)挖掘原語和語言?,沒有精確的指令和規(guī)則,數(shù)據(jù)挖掘系統(tǒng)就沒法使用。一個完全自動(不需要人為干預(yù)或指導(dǎo))的數(shù)據(jù)挖掘機器:會產(chǎn)生大量模式(重新把知識淹沒)會涵蓋所有數(shù)據(jù),使得挖掘效率低下大部分有價值的模式集可能被忽略挖掘出的模式可能難以理解,缺乏有效性、新穎性和實用性——令人不感興趣。用數(shù)據(jù)挖掘原語和語言來指導(dǎo)數(shù)據(jù)挖掘。,數(shù)據(jù)挖掘原語的組成部分,數(shù)據(jù)挖掘原語應(yīng)該包括以下部分:說明數(shù)據(jù)庫的

2、部分或用戶感興趣的數(shù)據(jù)集要挖掘的知識類型用于指導(dǎo)挖掘的背景知識模式評估、興趣度量如何顯示發(fā)現(xiàn)的知識數(shù)據(jù)挖掘原語用于用戶和數(shù)據(jù)挖掘系統(tǒng)通信,讓用戶能從不同的角度和深度審查和發(fā)現(xiàn)結(jié)果,并指導(dǎo)挖掘過程。,說明數(shù)據(jù)挖掘任務(wù)的原語,任務(wù)相關(guān)的數(shù)據(jù)數(shù)據(jù)庫(倉庫)名、數(shù)據(jù)立方體、選擇條件、相關(guān)屬性、分組條件挖掘的知識類型特征化、區(qū)分、關(guān)聯(lián)、分類/預(yù)測、聚類背景知識概念分層,關(guān)聯(lián)的確信度模式興趣度度量簡單性、確定性、實用性、新穎

3、性發(fā)現(xiàn)模式的可視化規(guī)則、表、圖表、圖、判定樹…,任務(wù)相關(guān)的數(shù)據(jù),用戶感興趣的只是數(shù)據(jù)庫或數(shù)據(jù)倉庫的一個子集。相關(guān)的操作:DB-選擇、投影、連接、聚集等;DW-切片、切塊初始數(shù)據(jù)關(guān)系數(shù)據(jù)子集選擇過程產(chǎn)生的新的數(shù)據(jù)關(guān)系可挖掘的視圖用于數(shù)據(jù)挖掘相關(guān)任務(wù)的數(shù)據(jù)集,任務(wù)相關(guān)的數(shù)據(jù)——例子,挖掘加拿大顧客和他們常在AllElectronics購買的商品間的關(guān)聯(lián)規(guī)則數(shù)據(jù)庫(倉庫)名 (e.g. AllElectronics_db)包

4、含相關(guān)數(shù)據(jù)的表或數(shù)據(jù)立方體名(e.g. item, customer, purchases, item_sold)選擇相關(guān)數(shù)據(jù)的條件(今年、加拿大)相關(guān)的屬性或維(item表的name和price,customer表的income和age),要挖掘的知識類型,要挖掘的知識類型將決定使用什么數(shù)據(jù)挖掘功能。概念描述(特征化和區(qū)分),關(guān)聯(lián)規(guī)則,分類/預(yù)測,聚類和演化分析等模式模板又稱元模式或元規(guī)則,用來指定所發(fā)現(xiàn)模式所必須匹配的條件

5、,用于指導(dǎo)挖掘過程。,關(guān)聯(lián)規(guī)則元模式——例子,研究AllElectronics的顧客購買習(xí)慣,使用如下關(guān)聯(lián)規(guī)則:P(X: customer, W) ∧ Q(X, Y) =>buys(X, Z)X---customer表的關(guān)鍵字P,Q---謂詞變量W, Y, Z---對象變量模板具體化age(X, “30…39”) ∧ income(X, “40k…49k”)=>buys(X, “VCR”) [2.2%, 60%

6、]occupation(x, “student”) ∧ age(X, “20…29”)=>buys(X, “computer”)[1.4%, 70%],背景知識:概念分層,背景知識是關(guān)于挖掘領(lǐng)域的知識,概念分層是背景知識的一種,它允許在多個抽象層上發(fā)現(xiàn)知識。概念分層以樹形結(jié)構(gòu)的節(jié)點集來表示,其中每個節(jié)點本身代表一個概念,根節(jié)點稱為all,而葉節(jié)點則對應(yīng)于維的原始數(shù)據(jù)值。,概念分層 ——上卷和下鉆,在概念分層中應(yīng)用上卷操作(概

7、化),使得用戶可以使用較高層次概念替代較低層次概念,從而可以在更有意義,跟抽象的層次觀察數(shù)據(jù),從而跟容易發(fā)現(xiàn)知識。同時上卷操作帶來的數(shù)據(jù)歸約還能有效的節(jié)省I/O支出。概念分層的下鉆操作使用較低層概念代替較高層概念,從而使用戶能夠?qū)^于一般化的數(shù)據(jù)做更詳細分析。上卷和下鉆操作讓用戶以不同視圖觀察數(shù)據(jù),洞察隱藏的數(shù)據(jù)聯(lián)系。概念分層的自動生成。,概念分層的類型,模式分層E.g., street $250,興趣度度量,沒有興趣度度量,

8、挖掘出來的有用模式,很可能會給淹沒在用戶不感興趣的模式中。簡單性確定性實用性新穎性興趣度的客觀度量方法:根據(jù)模式的結(jié)構(gòu)和統(tǒng)計,用一個臨界值來判斷某個模式是不是用戶感興趣的。,簡單性和確定性,簡單性(simplicity)模式是否容易被人所理解模式結(jié)構(gòu)的函數(shù)(模式的長度、屬性的個數(shù)、操作符個數(shù))。e.g. 規(guī)則長度或者判定樹的節(jié)點個數(shù)。確定性(certainty)表示一個模式在多少概率下是有效的。置信度 (A=>

9、B)=(包含A和B的元組值)/(包含A的元組值),e.g. buys(X, “computer)=>buys(X, “software”)[30%, 80%]100%置信度:準確的。,實用性和新穎性,實用性可以用支持度來進行度量:支持度(A=>b) = (包含A和 B的元組數(shù))/(元組總數(shù)) e.g. buys(X, “computer)=>buys(X, “software”)[30%, 80%]同時滿足最

10、小置信度臨界值和最小支持度臨界值的關(guān)聯(lián)規(guī)則稱為強關(guān)聯(lián)規(guī)則。新穎性提供新信息或提高給定模式集性能的模式通過刪除冗余模式來檢測新穎性(一個模式已經(jīng)為另外一個模式所蘊涵)Location(X, “Canada”)=>buys(X, “Sony_TV”) [8%, 70%]Location(X, “Vancouver”)=>buys(X, “Sony_TV”) [2%, 70%],發(fā)現(xiàn)模式的表示和可視化,以多種形式顯示挖掘

11、出來的模式:表、圖、判定樹、數(shù)據(jù)立方體等等,以適合不同背景的用戶的需要。使用概念分層,用更有意義,更容易理解的高層概念來替代低層概念;并通過上卷、下鉆等操作從不同的抽象級審視所發(fā)現(xiàn)的模式。特定知識類型的表示。,一種數(shù)據(jù)挖掘查詢語言DMQL,DMQL的設(shè)計目的支持特別的和交互的數(shù)據(jù)查詢,以便利于靈活和有效的知識發(fā)現(xiàn)提供一種類似于SQL的標準化查詢語言希望達到SQL在關(guān)系數(shù)據(jù)庫中的地位系統(tǒng)開發(fā)和演化的基礎(chǔ)方便的信息交互,廣泛的

12、技術(shù)支持,商業(yè)化,廣為認可設(shè)計挑戰(zhàn)數(shù)據(jù)挖掘任務(wù)涉及面寬數(shù)據(jù)特征、關(guān)聯(lián)規(guī)則、分類、演變分析…每種任務(wù)都有不同的需求,DMQL的語法,采用與SQL相類似的語法,便于與SQL的集成。允許在多個抽象層上,由關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫進行多類型知識的特殊挖掘DMQL的設(shè)計基于數(shù)據(jù)挖掘原語,語法中應(yīng)該包括對以下任務(wù)的指定:說明數(shù)據(jù)庫的部分或用戶感興趣的數(shù)據(jù)集要挖掘的知識類型用于指導(dǎo)挖掘的背景知識模式評估、興趣度量如何顯示發(fā)現(xiàn)的知識,任

13、務(wù)相關(guān)數(shù)據(jù)說明的語法,任務(wù)相關(guān)數(shù)據(jù)說明應(yīng)包括的內(nèi)容:包含相關(guān)數(shù)據(jù)的數(shù)據(jù)庫或數(shù)據(jù)倉庫相關(guān)的表名或數(shù)據(jù)立方體的名字選擇相關(guān)數(shù)據(jù)的條件探察的相關(guān)屬性或維關(guān)于檢索數(shù)據(jù)的排序和分組指令,任務(wù)相關(guān)數(shù)據(jù)說明子句,說明相關(guān)的數(shù)據(jù)庫或數(shù)據(jù)倉庫use database 或use data warehouse 指定涉及的表或數(shù)據(jù)立方體,定義檢索條件From [where ]列出要探察的屬性或維In relevance to相關(guān)數(shù)據(jù)的

14、排序order by 相關(guān)數(shù)據(jù)的分組group by 相關(guān)數(shù)據(jù)的分組條件:having ,任務(wù)相關(guān)數(shù)據(jù)說明——示例,挖掘加拿大顧客與在AllElectronics經(jīng)常購買的商品之間的關(guān)聯(lián)規(guī)則use database AllElectronics_dbin relevance to I.name, I.price, C.income, C.agefrom customer C, item I, purchases P, i

15、tems_sold Swhere I.item_ID=S. item_ID and S.trans_ID=P.trans_ID and P.cust_ID=C.cust_ID and C.country=“Canada”group by P.date,,指定挖掘知識類型,要挖掘的知識類型將決定所使用的數(shù)據(jù)挖掘功能。幾種主要的數(shù)據(jù)挖掘功能特征化目標數(shù)據(jù)的一般特征或特性匯總數(shù)據(jù)區(qū)分將目標對象的一般特性與一個或多個對比類對象的特

16、性相比較關(guān)聯(lián)分析發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性-值頻繁的在給定數(shù)據(jù)中集中一起出現(xiàn)的條件分類找出區(qū)分數(shù)據(jù)類或概念的模型(或函數(shù)),以便用之標志未知的對象類。聚類分析、孤立點分析、演變分析…,指定挖掘知識類型——特征化,目標數(shù)據(jù)的一般特征或特性匯總語法Mine_Knowledge_Specification  ::= mine characteristics [as pattern_name] analyz

17、e measure(s) analyze子句指定聚集度量(count, sum, count%),通過這些度量對每個找到的數(shù)據(jù)特征進行計算示例:顧客購買習(xí)慣的特征描述,對于每一特征,顯示滿足特征的任務(wù)相關(guān)元組的百分比mine characteristics as custPurchasinganalyze count%,指定挖掘知識類型——數(shù)據(jù)區(qū)分,將目標對象的一般特性與一個或多個對比類對象的特性相比較語法Mine_Kno

18、wledge_Specification  ::= mine comparison [as pattern_name] for target_class where target_condition  {versus contrast_class_i where contrast_condition_i}  analyze measure(s) analyze子句指定聚

19、集度量(count, sum, count%),將對每個描述進行計算或顯示示例:用戶將客戶區(qū)分為大顧客與小顧客,并顯示滿足每個區(qū)分的元組數(shù)Mine_Knowledge_Specification  ::= mine comparison as purchaseGroups for bigSpenders where avg(I.price) ≧$100 versus budgetSpenders

20、60;where avg(I.price) ≦$100 analyze count,指定挖掘知識類型——關(guān)聯(lián),發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性-值頻繁的在給定數(shù)據(jù)中集中一起出現(xiàn)的條件語法Mine_Knowledge_Specification  ::= mine associations [as pattern_name] matching 子句后面往往可以跟元模式,用來指定用戶有興趣探察的數(shù)據(jù)束或假定示例:使用

21、元模式指導(dǎo)的挖掘來指定用于描述顧客購買習(xí)慣的關(guān)聯(lián)規(guī)則挖掘Mine_Knowledge_Specification  ::= mine associations as buyingHabbitsmatching P(X: customer, W) ∧ Q(X, Y) =>buys(X, Z),指定挖掘知識類型——分類,找出區(qū)分數(shù)據(jù)類或概念的模型(或函數(shù)),以便用之標志未知的對象類語法Mine_Knowl

22、edge_Specification  ::= mine classification [as pattern_name] analyze classifying_attribute_or_dimensionanalyze子句說明根據(jù)某個屬性或維進行分類,通常每個分類屬性的或維的值就代表一個分類示例:挖掘客戶的信用等級模式mine classification as classifyCustCreditRati

23、nganalyze credit_rating,概念分層說明的語法,每個屬性或維可能有多個概念分層,已適應(yīng)用戶從不同角度看待問題的需要;用戶可以使用如下語句指定使用哪個概念分層:use hierarchy  for 示例1:定義模式分層location,location中包含一個概念分層的全序(street<city<province<country),相應(yīng)的DMQL語法定義如下所示:Define

24、hierarchy location_hierarchy on location as [street, city, province, country],概念分層說明的語法——集合分組分層,Level 0Level 1Level2,define hierarchy age_hierarchy for age on customer as level1: {young, middle_aged, senior} < le

25、vel0: alllevel2: {20…39} <level1: younglevel2: {40…59} <level1: middle_agedlevel2: {60…89} <level1: senior,興趣度度量說明的語法,興趣度的度量包括置信度、支持度、噪聲和新穎度等度量,可以通過將模式的興趣度度量與相應(yīng)的臨界值相比較決定一個模式是否為感興趣的模式。with  threshold =

26、threshold_value示例:挖掘關(guān)聯(lián)規(guī)則時限定找到的感興趣模式必須滿足最小支持度為5%,最小置信度為70%with support threshold = 5%with confidence threshold = 70%,模式表示和可視化說明的語法,對挖掘出來的模式,可以使用多種形式進行表示,包括:規(guī)則、表、餅圖、立方體、曲線等display as 為了方便用戶在不同的角度或者不同的概念層觀察發(fā)現(xiàn)的模式,用戶可以使用

27、上卷、下鉆、添加或丟棄屬性或維等操作Multilevel_Manipulation ::= roll up on attribute_or_dimension | drill down on attribute_or_dimension | add attribute_or_dimension | drop attribute_or_dimension例:假定描述是基于維location, ag

28、e和income的挖掘。用戶可以”roll up on location”, “drop age”, 概化發(fā)現(xiàn)的模式。,一個DMQL查詢的完整示例,查詢AllElectronics購買商品的價格不小于$100的,用AmEx信用卡結(jié)帳的加拿大顧客的購買習(xí)慣特征(年齡,商品類型和產(chǎn)地),以表的形式表示挖掘的模式,use database AllElectronics_db use hierarchy location_hierarchy

29、 for B.addressmine characteristics as customerPurchasing analyze count% in relevance to C.age, I.type, I.place_made from customer C, item I, purchases P, items_sold S, works_at W, branchwhere I.item_ID = S.item_

30、ID and S.trans_ID = P.trans_ID and P.cust_ID = C.cust_ID and P.method_paid = ``AmEx'' and P.empl_ID = W.empl_ID and W.branch_ID = B.branch_ID and B.address = ``Canada" and I.price >= 100with noise

31、 threshold = 0.05 display as table,其他數(shù)據(jù)挖掘語言和數(shù)據(jù)挖掘原語的標準化,關(guān)聯(lián)規(guī)則語言規(guī)范MSQL (Imielinski & Virmani’99)MineRule (Meo Psaila and Ceri’96) Query flocks based on Datalog syntax (Tsur et al’98)數(shù)據(jù)挖掘的OLE DB基于OLE DB和OLE DB for

32、OLAP技術(shù)整合數(shù)據(jù)庫,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘CRISP-DM (CRoss-Industry Standard Process for Data Mining)提供了一個有效的數(shù)據(jù)挖掘平臺和處理結(jié)構(gòu)強調(diào)使用數(shù)據(jù)挖掘技術(shù)解決商務(wù)問題的需要,基于數(shù)據(jù)挖掘語言的圖形用戶界面(GUI)設(shè)計,就像SQL是關(guān)系數(shù)據(jù)庫應(yīng)用的GUI設(shè)計的“核心”一樣,DMQL是數(shù)據(jù)挖掘應(yīng)用GUI設(shè)計的核心。數(shù)據(jù)挖掘的GUI可能包含以下部分:數(shù)據(jù)收集和數(shù)據(jù)查詢編

33、輯發(fā)現(xiàn)模式的表示分層結(jié)構(gòu)說明和操縱數(shù)據(jù)挖掘原語的操作交互的多層挖掘其他各種信息,數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu),一個系統(tǒng)的體系結(jié)構(gòu)是指一個系統(tǒng)的各種結(jié)構(gòu),包括系統(tǒng)的各種部分,這些部分所顯示出來的特性,以及它們之間的相互關(guān)系。系統(tǒng)功能與系統(tǒng)體系結(jié)構(gòu)的無關(guān)性。系統(tǒng)的體系結(jié)構(gòu)決定的是系統(tǒng)的功能屬性。數(shù)據(jù)挖掘系統(tǒng)體系結(jié)構(gòu)的核心問題:我們是否應(yīng)當將數(shù)據(jù)挖掘系統(tǒng)與數(shù)據(jù)庫/數(shù)據(jù)倉庫系統(tǒng)集成(或耦合)不耦合松散耦合半緊密耦合緊密耦合,D

34、M與DB/DW的耦合方式,不耦合DM系統(tǒng)不利用DB/DW系統(tǒng)的任何功能。松散耦合DM系統(tǒng)將使用DB/DW系統(tǒng)的某些功能。半緊密耦合除了將DM系統(tǒng)連接到一個DB/DW系統(tǒng)之外,一些基本數(shù)據(jù)挖掘原語(通過分析頻繁遇到的數(shù)據(jù)挖掘功能確定)可以在DB/DW系統(tǒng)中實現(xiàn)。緊密耦合DM系統(tǒng)平滑的集成到DB/DW系統(tǒng)中。數(shù)據(jù)挖掘子系統(tǒng)被視為信息挖掘子系統(tǒng)的一部分,數(shù)據(jù)挖掘查詢和功能根據(jù)DB或DW系統(tǒng)的挖掘查詢分析、數(shù)據(jù)結(jié)構(gòu)、索引模式和查詢

35、處理方法優(yōu)化。,概念描述:特征化與比較,什么是概念描述?,描述性挖掘 VS. 預(yù)測性挖掘描述性挖掘:以簡潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有趣的一般性質(zhì)。預(yù)測性數(shù)據(jù)挖掘:通過分析數(shù)據(jù)建立一個或一組模型,并試圖預(yù)測新數(shù)據(jù)集的行為。概念描述:為數(shù)據(jù)的特征化和比較產(chǎn)生描述(當所描述的概念所指的是一類對象時,也稱為類描述)特征化:提供給定數(shù)據(jù)集的簡潔匯總。區(qū)分:提供兩個或多個數(shù)據(jù)集的比較描述。,概念描述 VS. OLAP,概念描述和數(shù)

36、據(jù)倉庫的聯(lián)機分析處理(OLAP)都跟數(shù)據(jù)概化密切相關(guān),即以簡潔的形式在更一般的抽象層描述數(shù)據(jù),允許數(shù)據(jù)在抽象層概化,便于考察數(shù)據(jù)的一般行為。兩者的主要區(qū)別:概念描述可以處理復(fù)雜數(shù)據(jù)類型的屬性及其聚集一個更加自動化的過程OLAP實際使用的OLAP系統(tǒng)中,維和度量的數(shù)據(jù)類型都非常有限(非數(shù)值型的維和數(shù)值型的數(shù)據(jù)),表現(xiàn)為一種簡單的數(shù)據(jù)分析模型一個由用戶控制的過程,數(shù)據(jù)概化和基于匯總的特征化,數(shù)據(jù)概化數(shù)據(jù)庫中的數(shù)據(jù)和對象通常包

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論