服裝erp信息系統(tǒng)_第1頁
已閱讀1頁,還剩94頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術,Electronic Commerce夏火松E-MAIL:BXXHS@SINA.COM,,,數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術教案,第三部分 主要內(nèi)容講解第一章數(shù)據(jù)倉庫與數(shù)據(jù)挖掘概述,1.1數(shù)據(jù)倉庫引論11.1.1為什么要建立數(shù)據(jù)倉庫11.1.2什么是數(shù)據(jù)倉庫21.1.3數(shù)據(jù)倉庫的特點71.1.4數(shù)據(jù)進入數(shù)據(jù)倉庫的基本過程與建立數(shù)據(jù)倉庫的步驟111.1.5分析數(shù)據(jù)倉庫的內(nèi)容12

2、1.2數(shù)據(jù)挖掘引論131.2.1為什么要進行數(shù)據(jù)挖掘131.2.2什么是數(shù)據(jù)挖掘181.2.3數(shù)據(jù)挖掘的特點211.2.4數(shù)據(jù)挖掘的基本過程與步驟221.2.5分析數(shù)據(jù)挖掘的內(nèi)容261.3數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關系281.4數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的應用311.4.1數(shù)據(jù)挖掘在零售業(yè)的應用311.4.2數(shù)據(jù)挖掘技術在商業(yè)銀行中的應用361.4.3數(shù)據(jù)挖掘在電信部門的應用401.4

3、.4數(shù)據(jù)挖掘在貝斯出口公司的應用421.4.5數(shù)據(jù)挖掘如何預測信用卡欺詐421.4.6數(shù)據(jù)挖掘在證券行業(yè)的應用43思考練習題一44,1.1.1為什么要建立數(shù)據(jù)倉庫,數(shù)據(jù)倉庫的作用 建立數(shù)據(jù)倉庫的好處,1.1.2 什么是數(shù)據(jù)倉庫,1.數(shù)據(jù)倉庫的概念 W.H.Inmon在《Building the Data Warehouse》中定義數(shù)據(jù)倉庫為:“數(shù)據(jù)倉庫是面向主題的、集成的、隨時間變化的、歷史的、穩(wěn)定的、支持決

4、策制定過程的數(shù)據(jù)集合?!?即數(shù)據(jù)倉庫是在管理人員決策中的面向主題的、集成的、非易失的并且隨時間而變化的數(shù)據(jù)集合?!癉W是作為DSS基礎的分析型DB,用來存放大容量的只讀數(shù)據(jù),為制定決策提供所需的信息。” “DW是與操作型系統(tǒng)相分離的、基于標準企業(yè)模型集成的、帶有時間屬性的。即與企業(yè)定義的時間區(qū)段相關,面向主題且不可更新的數(shù)據(jù)集合?!?數(shù)據(jù)倉庫是一種來源于各種渠道的單一的、完整的、穩(wěn)定的數(shù)據(jù)存儲。這種數(shù)據(jù)存儲提供給可以允許最終用戶的

5、可以是一種他們能夠在其業(yè)務范疇中理解并使用的方式。數(shù)據(jù)倉庫是大量有關公司數(shù)據(jù)的數(shù)據(jù)存儲。倉庫提供公司數(shù)據(jù)以及組織數(shù)據(jù)的訪問功能,其中的數(shù)據(jù)是一致的(consistent),并且可以按每種可能的商業(yè)度量方式分解和組合;數(shù)據(jù)倉庫也是一套查詢、分析和呈現(xiàn)信息的工具;數(shù)據(jù)倉庫是我們發(fā)布所用數(shù)據(jù)的場所,其中數(shù)據(jù)的質(zhì)量是業(yè)務再工程的驅動器(driver of business reengineering)。定義的共同特征:首先,數(shù)據(jù)倉庫包含大

6、量數(shù)據(jù),其中一些數(shù)據(jù)來源于組織中的操作數(shù)據(jù),也有一些數(shù)據(jù)可能來自于組織外部;其次,組織數(shù)據(jù)倉庫是為了更加便利地使用數(shù)據(jù)進行決策;最后,數(shù)據(jù)倉庫為最終用戶提供了可用來存取數(shù)據(jù)的工具。,數(shù)據(jù)倉庫的定義,綜合對數(shù)據(jù)倉庫的各種理解以及其特征,我們可以定義數(shù)據(jù)倉庫是一種為信息分析提供了良好的基礎并支持管理決策活動的分析環(huán)境,是面向主題的、集成的、穩(wěn)定的、不可更新的、隨時間變化的、分層次的多維的集成數(shù)據(jù)集合。,,2.與數(shù)據(jù)倉庫相關的幾個概念數(shù)據(jù)

7、(data)是一組表示數(shù)量、行動和目標的非隨機的可以鑒別的符號,是對客觀事物記錄下來的,可以鑒別的符號。這些符號包括數(shù)字、字符、文字、圖形、圖像、聲音。操作數(shù)據(jù)原子數(shù)據(jù)匯總數(shù)據(jù)特定查詢響應,數(shù)據(jù)倉庫環(huán)境,,數(shù)據(jù)類型的分類 元數(shù)據(jù)是指用來描述數(shù)據(jù)倉庫數(shù)據(jù)庫內(nèi)容的數(shù)據(jù)。以后將詳細討論元數(shù)據(jù)。數(shù)據(jù)庫是一組內(nèi)部相關聯(lián)的數(shù)據(jù)集合。其中關系數(shù)據(jù)庫是表的集合,每個表都有惟一的名字,且每個表都由一組字段(屬性)所存放的記錄組成。數(shù)據(jù)庫管理

8、系統(tǒng)(DBMS)是用來管理和存取數(shù)據(jù)庫的一組軟件。該軟件具有如下機制:數(shù)據(jù)庫結構定義,數(shù)據(jù)的存儲、并發(fā)、共享或分布的數(shù)據(jù)訪問,數(shù)據(jù)的一致性和安全性。數(shù)據(jù)庫系統(tǒng)是一個由硬件、軟件、數(shù)據(jù)庫和管理人員組成的復雜系統(tǒng)。隨著信息技術不斷的發(fā)展,對數(shù)據(jù)處理的技術和人們對數(shù)據(jù)的需求也在不斷的進化,如圖1.2所示的數(shù)據(jù)庫系統(tǒng)及相關技術的演化。數(shù)據(jù)集市(data marts)通常是指較為小型化、針對特定目標且建設成本較低的一種數(shù)據(jù)倉庫。為了特定的應用

9、目的或應用范圍,而從數(shù)據(jù)倉庫中獨立出來的一部分數(shù)據(jù),也可稱為部門數(shù)據(jù)或主題數(shù)據(jù)(subject data)。,數(shù)據(jù)庫系統(tǒng)及相關技術的演化,1.1.3 數(shù)據(jù)倉庫的特點,1.主題與面向主題2.數(shù)據(jù)倉庫數(shù)據(jù)的集成性3.數(shù)據(jù)倉庫數(shù)據(jù)的不可更新性4.DW數(shù)據(jù)的時態(tài)性,1.1.4 數(shù)據(jù)進入數(shù)據(jù)倉庫的基本過程與建立數(shù)據(jù)倉庫的步驟,1.數(shù)據(jù)進入數(shù)據(jù)倉庫的基本過程操作數(shù)據(jù)向數(shù)據(jù)倉庫的移動包括以下五個過程:提取、變換、凈化、加載和匯總。2.建

10、立數(shù)據(jù)倉庫的步驟1)收集和分析業(yè)務需求;2)建立數(shù)據(jù)模型和數(shù)據(jù)倉庫的物理設計;3)定義數(shù)據(jù)源;4)選擇數(shù)據(jù)倉庫技術和平臺;5)從操作型數(shù)據(jù)庫中提取、轉換和凈化數(shù)據(jù)到數(shù)據(jù)倉庫;6)選擇訪問和報表工具;7)選擇數(shù)據(jù)庫連接軟件;8)選擇數(shù)據(jù)分析和數(shù)據(jù)展示軟件;9)更新數(shù)據(jù)倉庫;,1.1.5 分析數(shù)據(jù)倉庫的內(nèi)容,操作型數(shù)據(jù)和分析型數(shù)據(jù)的區(qū)別,1.2.1 為什么要進行數(shù)據(jù)挖掘,1.數(shù)據(jù)挖掘的作用數(shù)據(jù)挖掘解

11、決諸如欺詐甄別(fraud detection)、保留客戶(customer retention)、 消除摩擦(attrition)、數(shù)據(jù)庫營銷(database marketing)、市場細分(market segmentation)、風險分析(risk analysis)、親和力分析(affinity analysis)、客戶滿意度(customer satisfaction)、破產(chǎn)預測(bankruptcy prediction

12、)、職務分析(portfolio analysis)等業(yè)務問題提供了有效的方法。,,2.數(shù)據(jù)挖掘的背景(1)數(shù)據(jù)挖掘的商業(yè)背景(2)數(shù)據(jù)挖掘的技術背景(3)數(shù)據(jù)挖掘的社會背景,,3.數(shù)據(jù)挖掘對企業(yè)的影響,1.2.2 什么是數(shù)據(jù)挖掘,1.數(shù)據(jù)挖掘概念定義1 G.Piatetsky Shapior,W.J.Frawley等定義數(shù)據(jù)挖掘為從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的、潛在有用的信息的非平凡過程。定義2 有

13、人簡單認為,數(shù)據(jù)挖掘就是數(shù)據(jù)庫中知識的發(fā)現(xiàn)。定義3 有人認為,數(shù)據(jù)挖掘為發(fā)現(xiàn)數(shù)據(jù)中隱藏的模式和關系的過程。定義4 有人認為,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或挖掘知識。定義5 Fayyad等在“知識發(fā)現(xiàn)96國際會議上”認為,知識發(fā)現(xiàn)是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的全部過程,而數(shù)據(jù)挖掘則是此全部過程中一個特定的關鍵一步。這種觀點將數(shù)據(jù)挖掘的對象局限于數(shù)據(jù)庫。定義6 數(shù)據(jù)挖掘廣義的定義為在一些事實或觀察數(shù)據(jù)的集合中尋找模式的決策支持的過程

14、。 綜上所述,我們定義數(shù)據(jù)挖掘為在不同的數(shù)據(jù)源中包括結構化的數(shù)據(jù)、半結構化的數(shù)據(jù)和非結構化的數(shù)據(jù),即既可以是數(shù)據(jù)庫,也可以是文件系統(tǒng),或其他任何組織在一起的數(shù)據(jù)集合,通過一定的工具與方法尋找出有價值的知識的一類深層次的數(shù)據(jù)分析方法。,,2.數(shù)據(jù)挖掘的分類,,3.與數(shù)據(jù)挖掘相關的幾個概念1)直接數(shù)據(jù)挖掘利用可用的數(shù)據(jù)建立一個模型,模型對剩余的數(shù)據(jù),對一個特定的變量(可以理解成數(shù)據(jù)庫中表的屬性,即列)進行描述,分類、估值、預言屬于

15、直接數(shù)據(jù)挖掘。2)間接數(shù)據(jù)挖掘不是選出某一具體的變量用模型進行描述;而是在所有的變量中建立起某種關系。相關性分組或關聯(lián)規(guī)則、聚集、描述和可視化屬于間接數(shù)據(jù)挖掘。3)描述式數(shù)據(jù)挖掘以簡潔概要的方式描述數(shù)據(jù),并提供數(shù)據(jù)的有意義的一般知識。4)預測式數(shù)據(jù)挖掘分析數(shù)據(jù),建立一個或一組模型,并試圖預測新數(shù)據(jù)集的行為。,,3.與數(shù)據(jù)挖掘相關的幾個概念(續(xù))5)數(shù)據(jù)庫查詢工具和數(shù)據(jù)挖掘工具之間的差異查詢工具能幫助用戶從數(shù)據(jù)庫數(shù)據(jù)中找到

16、新的、有意義的事實。這類問題是查詢所要訪問的是對象是否在某一特定的位置。這與目前數(shù)據(jù)庫系統(tǒng)中大部分的查詢操作是相似的。通過這類問題使你可以確定對象將到達的位置。6)信息7)知識(knowledge)8)數(shù)據(jù)、信息與知識的轉化關系,1.2.3 數(shù)據(jù)挖掘的特點,1)處理的數(shù)據(jù)規(guī)模十分龐大;2)由于用戶不能形成精確的查詢要求,因此需要靠DM技術來尋找其可能感興趣的東西;3)DM對數(shù)據(jù)的迅速變化做出快速響應,以提供決策支持信息;4)

17、DM既要發(fā)現(xiàn)潛在規(guī)則,還要管理和維護規(guī)則,隨著新數(shù)據(jù)的不斷加入,規(guī)則需要隨著新數(shù)據(jù)更新;5)DM中規(guī)則的發(fā)現(xiàn)基于統(tǒng)計規(guī)律,發(fā)現(xiàn)的規(guī)則不必適合于所有數(shù)據(jù),而且當達到某一閾值時,便認為有此規(guī)則。,1.2.4 數(shù)據(jù)挖掘的基本過程與步驟,1.數(shù)據(jù)挖掘的基本過程 (1)數(shù)據(jù)準備數(shù)據(jù)準備(data preparation):本階段又可進一步細分成數(shù)據(jù)集成、數(shù)據(jù)選擇和預分析。 (2) 挖掘挖掘(mining):DM處理器(data min

18、ing processor)綜合利用前面提到的多種DM方法分析數(shù)據(jù)。(3) 表述表述(presentation):與檢驗證型工具一樣,DM將獲取的信息以便于用戶理解和觀察的方式反映給用戶,這時可以利用可視化工具。 (4) 評價評價(assess):如果分析人員對分析結果不滿意,可以遞歸地執(zhí)行上述三個過程,直到滿意為止。,,2.進行數(shù)據(jù)挖掘的步驟 (1) 問題定義問題定義主要是指利用數(shù)據(jù)挖掘可以分析哪些問題。 (2)發(fā)現(xiàn)

19、信息通過數(shù)據(jù)挖掘分析從其客戶那里發(fā)現(xiàn)更多的信息。 (3)制定計劃 (4)采取行動 (5) 監(jiān)測效果,1.2.5 分析數(shù)據(jù)挖掘的內(nèi)容,1)直銷2)爭取客戶3)保留客戶4)交叉銷售5)趨勢分析6)欺詐檢測,1.3 數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關系,,用戶包括偶然用戶(casual user)、高級用戶(power user)和專家(expert)。 查詢協(xié)同管理包括一些訪問工具和系統(tǒng)管理工具,為用戶訪問數(shù)據(jù)倉庫和其他系統(tǒng)提供

20、手段。 數(shù)據(jù)倉庫管理包括安全和特權管理,跟蹤數(shù)據(jù)的更新,數(shù)據(jù)質(zhì)量檢查,管理和更新元數(shù)據(jù),審計和報告數(shù)據(jù)倉庫的使用和狀態(tài),刪除數(shù)據(jù),復制、分割和分發(fā)數(shù)據(jù),備份和恢復,存儲管理。 信息發(fā)布系統(tǒng)即把數(shù)據(jù)倉庫中的數(shù)據(jù)或其他相關的數(shù)據(jù)發(fā)送給不同的地點或用戶。,1.4.1 數(shù)據(jù)挖掘在零售業(yè)的應用,超市可以采用兩種不同的方式從事信息中介,一種方式是針對匿名客戶,另一種是針對注冊或有忠誠卡的客戶。 (1)重心從商品轉換到客戶分析特定客戶群的

21、購買模式,廠商可以了解特定的客戶的購買模型。 (2)數(shù)據(jù)分析賣主(供應商)可以通過數(shù)據(jù)挖掘技術來增加商品的利潤率,通過競爭成為“種類首領”。,1.4.2 數(shù)據(jù)挖掘技術在商業(yè)銀行中的應用,在銀行業(yè),數(shù)據(jù)挖掘主要用于信用欺詐的建模和預測、風險評估、趨勢分析、收益分析以及輔助直銷活動。 在金融市場,已將神經(jīng)網(wǎng)絡用于股票價格預測、購買權交易、債券等級評定、資產(chǎn)組合管理、商品價格預測、合并和買進以及金融危機預測等方面。,,1996年,《

22、銀行系統(tǒng)和技術》評論認為“數(shù)據(jù)挖掘技術將是本年度金融服務領域最重要的應用?!?在進行數(shù)據(jù)挖掘的銀行包括美國第一銀行、Headland抵押公司、FCC國家銀行、聯(lián)邦住房貸款抵押公司、Wells Fargo銀行、NationsBanc服務公司、N.A.Mellon銀行、Advata抵押公司、化學銀行、Chevy Chase銀行、美國銀行公司和USAA聯(lián)邦儲蓄銀行,1.4.3 數(shù)據(jù)挖掘在電信部門的應用,1998年,西部電信用SAS的企業(yè)挖

23、掘數(shù)據(jù)產(chǎn)品作為數(shù)據(jù)挖掘平臺,開發(fā)了一項企業(yè)營銷戰(zhàn)略系統(tǒng)。 1995年9月,DEC公司的Evan Davies和Hossein Pakraven提交的一份報告對客戶跳槽造成的損失進行了量化,同時他們估計獲得一個新客戶的費用高達400美元。,1.4.4 數(shù)據(jù)挖掘在貝斯出口公司的應用,貝斯出口公司是英國最大的啤酒出口商。該公司選擇了IBM的智能挖掘器作為其數(shù)據(jù)挖掘的商務解決方案。,1.4.5 數(shù)據(jù)挖掘如何預測信用卡欺詐,對于這一問題可以有

24、下列3種解決的途徑: 1)使用查詢工具從關系數(shù)據(jù)庫中以適當?shù)母袷匠槿∷枰男畔?。采用Brio,Businee Objects及Congnos等公司開發(fā)的工具將很容易構造出模型。由于用這種方法需要將數(shù)據(jù)下載到客戶端計算機中,所以能夠從數(shù)據(jù)倉庫中創(chuàng)建視圖來表示將要挖掘的虛擬數(shù)據(jù)。2)通過從關系數(shù)據(jù)倉庫中抽取記錄數(shù)據(jù),這將會受到一定的限制。3)通過構造SQL語句以適當格式得到所需的數(shù)據(jù)。,1.4.6 數(shù)據(jù)挖掘在證券行業(yè)的應用,關于股

25、票預測,市場上有許多采用數(shù)據(jù)挖掘技術對股票進行預測的軟件。如NETPROPHET是神經(jīng)網(wǎng)絡應用公司開發(fā)的一個股票預測應用軟件,它采用了神經(jīng)網(wǎng)絡技術,將輸出的結果用兩條曲線分別表示實際股票值和預測股票值。,第二章 數(shù)據(jù)倉庫的分析,2.1影響數(shù)據(jù)倉庫成功的因素462.2數(shù)據(jù)倉庫的生命周期472.2.1數(shù)據(jù)倉庫計劃與準備階段482.2.2數(shù)據(jù)倉庫的其他階段542.3數(shù)據(jù)倉庫的基本體系結構562.4數(shù)據(jù)倉庫的邏輯

26、結構602.4.1數(shù)據(jù)倉庫中的粒度602.4.2數(shù)據(jù)倉庫中的數(shù)據(jù)分割612.4.3數(shù)據(jù)倉庫中的數(shù)據(jù)組織612.4.4數(shù)據(jù)倉庫中的快照622.4.5數(shù)據(jù)倉庫中的元數(shù)據(jù)62思考練習題二63,2.1 影響數(shù)據(jù)倉庫成功的因素,決策支持系統(tǒng)與事務之間在數(shù)據(jù)庫要求上的差異,影響數(shù)據(jù)倉庫成功的因素,2.2.1 數(shù)據(jù)倉庫計劃與準備階段,1.用戶需求分析2.可行性研究3.用戶的認可4.建設數(shù)據(jù)倉庫的協(xié)調(diào)與阻力分析

27、5.開發(fā)項目計劃制定6.創(chuàng)建數(shù)據(jù)倉庫所使用的關鍵資源,數(shù)據(jù)倉庫的生命周期,2.2.2 數(shù)據(jù)倉庫的其他階段,1)系統(tǒng)分析2)系統(tǒng)設計(整體設計與詳細設計)3)系統(tǒng)測試,2.3 數(shù)據(jù)倉庫的基本體系結構,,客戶應用,是供用戶訪問查詢,并以直觀方式展示分析結果;數(shù)據(jù)倉庫,是存儲不同程度的數(shù)據(jù)和元數(shù)據(jù);集成器,是將從運作數(shù)據(jù)庫中提取的數(shù)據(jù)經(jīng)過轉換、計算、綜合等操作,集成到數(shù)據(jù)倉庫中;監(jiān)視器,是負責感知數(shù)據(jù)源發(fā)生的變化,并按需求提取數(shù)

28、據(jù);數(shù)據(jù)源,是為DW提供最底層的運作數(shù)據(jù)庫系統(tǒng)及外部數(shù)據(jù)。,,,2.4.1 數(shù)據(jù)倉庫中的粒度,2.4.2 數(shù)據(jù)倉庫中的數(shù)據(jù)分割,數(shù)據(jù)分割的常用標準:按時間、商業(yè)行業(yè)、地理位置、組織單位等。這些標準都是由開發(fā)人員來選擇,且還要選擇是在應用層上進行分割,還是在系統(tǒng)層上進行分割。在系統(tǒng)層進行分割在一定程度上是DBMS和系統(tǒng)的一種功能。而在應用層分割需要應用程序代碼來完成,每年的數(shù)據(jù)定義既可以相同,也可以不相同,同時從一個處理集轉移到另一個處

29、理集沒有損失。,2.4.3 數(shù)據(jù)倉庫中的數(shù)據(jù)組織,數(shù)據(jù)倉庫中有這些數(shù)據(jù)組織:簡單堆積結構、輪轉綜合數(shù)據(jù)存儲、簡單直接文件和連續(xù)組織。,2.4.4 數(shù)據(jù)倉庫中的快照,快照是為一些事件的發(fā)生而產(chǎn)生的。 本組成形式由4個部分組成:鍵碼(key)、時間單元、只和關鍵碼相關聯(lián)的初始數(shù)據(jù)、與初始數(shù)據(jù)或關鍵碼無直接關系的二次數(shù)據(jù)。,2.4.5 數(shù)據(jù)倉庫中的元數(shù)據(jù),元數(shù)據(jù)(metadata)是關于數(shù)據(jù)的數(shù)據(jù),對數(shù)據(jù)的結構、內(nèi)容、鍵碼、索引等的描述。

30、元數(shù)據(jù)在操作型的環(huán)境中和分析型的環(huán)境中具有不同的作用。 元數(shù)據(jù)是描述數(shù)據(jù)倉庫內(nèi)數(shù)據(jù)的結構和建立方法的數(shù)據(jù)??砂雌溆猛镜牟煌譃閮深悾杭夹g元數(shù)據(jù)和商業(yè)元數(shù)據(jù)。技術元數(shù)據(jù)是數(shù)據(jù)倉庫的設計和管理人員用于開發(fā)和日常管理數(shù)據(jù)倉庫是用的數(shù)據(jù)。,第三章 數(shù)據(jù)倉庫的設計與實施,3.1從數(shù)據(jù)庫到數(shù)據(jù)倉庫643.2面向主題的數(shù)據(jù)倉庫設計643.2.1數(shù)據(jù)建模643.2.2星型連接653.3開發(fā)數(shù)據(jù)倉庫的物理設計733.3.

31、1數(shù)據(jù)倉庫設計工具的選擇733.3.2物理數(shù)據(jù)模型設計743.3.3數(shù)據(jù)倉庫中數(shù)據(jù)表的數(shù)量與規(guī)范化743.4數(shù)據(jù)倉庫的實施753.4.1數(shù)據(jù)倉庫的實施應注意的問題753.4.2在實施數(shù)據(jù)倉庫過程中應避免的錯誤763.4.3數(shù)據(jù)倉庫項目實施成功的要訣79思考練習題三83,3.1 從數(shù)據(jù)庫到數(shù)據(jù)倉庫,3.2.1 數(shù)據(jù)建模,1)數(shù)據(jù)倉庫的開發(fā)過程2)基于開發(fā)過程的數(shù)據(jù)建模型的主要內(nèi)容,3.2.

32、2 星型連接,,3.3.1數(shù)據(jù)倉庫設計工具的選擇,1.數(shù)據(jù)獲取工具的選擇2.數(shù)據(jù)工具的選擇,3.3.2 物理數(shù)據(jù)模型設計,硬件平臺的選擇:數(shù)據(jù)倉庫的硬盤容量通常是操作數(shù)據(jù)庫硬盤容量的2~3倍。選擇硬件平臺時要考慮的問題:是否提供并行的I/O?對多CPU的支持能力如何?不同存儲介質(zhì)的特點比較表,3.3.3 數(shù)據(jù)倉庫中數(shù)據(jù)表的數(shù)量與規(guī)范化,在數(shù)據(jù)模型處理過程中,如果程序在很多表中跳轉,每次程序從一個表跳到另一個,就要進行I/O變換,既

33、要存取數(shù)據(jù),又要存取索引找到數(shù)據(jù)。如果許多程序需要大量的I/O時,性能就會受到影響,這就要進行小計。當數(shù)據(jù)序列產(chǎn)生的數(shù)量是穩(wěn)定的、按序列存取的,且數(shù)據(jù)的創(chuàng)建與修改在統(tǒng)計上是以很規(guī)律的方式進行的時候,可以采用數(shù)據(jù)數(shù)組。,3.4.1 數(shù)據(jù)倉庫的實施應注意的問題,在數(shù)據(jù)倉庫的實施過程中要考慮以下問題:投資回報率;在具體實施時應自頂向下還是自下到上;在人力資源的問題上要考慮培訓還是雇用;在設計上要有前瞻性,把問題覆蓋的范圍思考大一些,但實施

34、從小處開始。,3.4.2 在實施數(shù)據(jù)倉庫過程中應避免的錯誤,1.錯誤項目的發(fā)起2.制訂了不可能完成的目標3.犯政治幼稚病4.把所有能找到的數(shù)據(jù)全都放到數(shù)據(jù)倉庫中5.認為設計數(shù)據(jù)倉庫就是設計事務數(shù)據(jù)庫6.選擇一個面向技術的而不是面向用戶的人做數(shù)據(jù)倉庫項目經(jīng)理,,7.只專注內(nèi)部關系型數(shù)據(jù),而忽略外部數(shù)據(jù)、文本、圖像甚至聲音、視頻數(shù)據(jù)8.用交疊的或沖突的數(shù)據(jù)定義交付數(shù)據(jù)9. 相信軟硬件供應商對性能、能力和可擴展性的承諾10.相

35、信一旦數(shù)據(jù)倉庫建立起來并開始運行,你的任務就完成了11.專注于動態(tài)生成查詢、數(shù)據(jù)挖掘和定期生成報表,3.4.3 數(shù)據(jù)倉庫項目實施成功的要訣,許多數(shù)據(jù)倉庫項目的指導方針都是成功的。Anahory和Murray提供了足有145組指導方針,所有這些都是為了那些負責數(shù)據(jù)倉庫項目的人而設計的,目的是幫助他們得到成功的結論。 數(shù)據(jù)倉庫專家Larry Greenfield已經(jīng)出版了他關于一個成功數(shù)據(jù)倉庫項目的建議,下面是給倉庫建造者的一些建議(

36、http://pwp.starnetinc.com/larryg/index.html),第四章 信息分析的基本技術,4.1自動信息分析的基本技術844.1.1智能代理844.1.2群體智能874.1.3小波分析904.1.4分形技術分析924.2聯(lián)機分析934.2.1聯(lián)機分析OLAP的基本術語954.2.2OLAP體系結構和處理的特性964.2.3OLAP多維數(shù)據(jù)結構與OLAP的分類

37、974.2.4OLAP的多維數(shù)據(jù)分析方法984.2.5OLAP評價準則1004.2.6OLAP的發(fā)展與流行的OLAP工具選擇1034.3Rough的信息分析技術1044.3.1粗糙集理論的基本概念和理論基礎1054.3.2粗糙集在信息分析中的特征表示106思考練習題四109,信息分析技術的不同方面與層次分類,4.1.1智能代理,智能代理(Agent)是一種在計算機網(wǎng)絡上無疲勞工作執(zhí)行重復性、可預料

38、任務的,為人們建立知識的軟件包。 智能代理具有長期性、半自動化、參與活動,且具有適應性。,,1.智能代理定義Agent的設計是用來完成某類任務的,能在一定環(huán)境中自主發(fā)揮作用、有生命周期的計算實體。Agent 是一種抽象實體,它能作用于自身和環(huán)境,并能對環(huán)境做出反映,具有知識、目標和能力。2.多Agent與移動Agent多Agent是由多個可執(zhí)行網(wǎng)絡計算的Agent組成的集合,能對問題求解,能隨環(huán)境改變而自動修改自己的行為,并能

39、通過網(wǎng)絡與其他Agent進行通信、交換、合作,協(xié)同完成求解同一問題的分布式智能系統(tǒng)。 移動Agent是Agent 與Internet技術相結合的產(chǎn)物,它可以自主地在網(wǎng)絡上從一臺主機移動到另一臺主機,根據(jù)用戶指定的任務進行自動檢索、收據(jù)和過濾信息,代表用戶進行商務活動。3.建造Agent的方法,4.1.2 群體智能,1.蟻群算法2.多Agent分布式的市場營銷知識獲取結構,多Agent分布式市場營銷知識獲取結構,4.1.3 小波分

40、析,小波變換是一種信號處理技術,它將一個信號分解為不同頻率的子波段。在實際工程中,有用信號通常表現(xiàn)為低頻信號或是一些比較平穩(wěn)的信號,而噪聲(離群)則通常表現(xiàn)為高頻信號。,4.1.4 分形技術分析,分形理論(fractal theory)的創(chuàng)始人Mandelbrot在20世紀60年代就應用自相似性和標度不變性,對棉花價格進行了研究。 稱集F是分形的,是具備如下典型的性質(zhì):1)F具有精細的結構,即有任意小比例的不規(guī)則的細節(jié);2)F是

41、如此的不規(guī)則以至于無論它的整體和局部都不能用微積分或傳統(tǒng)的幾何語言來描述;3)F通常有某種自相似或自仿射的性質(zhì),可能是近似的,也可能是統(tǒng)計近似意義上的;4)一般地F有“分形維數(shù)”(以某種定義),通常嚴格大于它的拓撲維數(shù);5)在大多令人感興趣情形下,F(xiàn)以非常簡單的方法,可能由迭代給出定義;6)F通常有“自然”的外貌。,4.2.1聯(lián)機分析OLAP的基本術語,定義1 OLAP(聯(lián)機分析處理)是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析。通過對

42、信息(維數(shù)據(jù))的多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進行深入觀察。定義2 OLAP(聯(lián)機分析處理) 是使分析人員、管理人員或執(zhí)行人員能夠從多種角度對從原始數(shù)據(jù)中轉化出來的、能夠真正為用戶所理解的,并對真實反映企業(yè)數(shù)據(jù)特性的信息進行快速、一致、交互地存取,從而獲得對數(shù)據(jù)更深入了解的一類軟件技術 (OLAP委員會的定義)。OLAP的目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術核心是

43、“維”這個概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。,4.2.2 OLAP體系結構和處理的特性,4.2.3 OLAP多維數(shù)據(jù)結構與OLAP的分類,1.OLAP多維數(shù)據(jù)結構2.OLAP的分類,4.2.4 OLAP的多維數(shù)據(jù)分析方法,1.切片(slice)2.切塊(Dice)3.旋轉(turning)/轉軸(pivot)4.鉆取(drill),4.2.5 OLAP評價準則,準則1 OLAP模型必須提供多維概念視圖。準則

44、2 透明性準則。準則3 存取能力準則。準則4 穩(wěn)定的報表性能。準則5 客戶/服務器體系結構。準則6 維的等同性準則。準則7 動態(tài)的稀疏矩陣處理準則。準則8 多用戶支持能力準則。準則9 非受限的跨維操作。準則10 直觀的數(shù)據(jù)操縱。準則11 靈活的報表生成。準則12 非受限維與聚集層次。,4.2.6 OLAP的發(fā)展與流行的OLAP工具選擇,1.OLAP的發(fā)展2.流行的OLAP工具選擇1)Hyperion Essba

45、se: 2)Oracle Express 3)IBM DB2 OLAP Server 4)Sybase Power dimension 5)Informix Metacube,4.3.1 粗糙集理論的基本概念和理論基礎,知識、劃分與等價關系信息表、不可分辨關系和基本集粗糙集的下、上近似及邊界區(qū),4.3.2 粗糙集在信息分析中的特征表示,定義4 設U≠Ø是論域,Ω={ω1, ω2,…,ωm}是對象集,

46、 ,Ω中任何對象所具有的特征所組成的集合,稱為特征集(property set):T={t1,t2…,tn}。這些特征可由如下的“屬性-值”表示:t=(a,v), , 。由特征集構成的表,稱之為特征表,,,,第五章 數(shù)據(jù)挖掘過程,5.1數(shù)據(jù)挖掘的方法與基本流程1105.1.1SEMMA方法1105.1.2數(shù)據(jù)挖掘的基本流程1115.2確定主題和定義數(shù)據(jù)挖掘任

47、務1125.2.1確定主題1135.2.2定義數(shù)據(jù)挖掘任務1155.3數(shù)據(jù)預處理1155.3.1數(shù)據(jù)的收集和準備1165.3.2數(shù)據(jù)清理(data cleaning),1165.3.3數(shù)據(jù)集成(data integration)1185.3.4數(shù)據(jù)變換(data transformation)1195.3.5數(shù)據(jù)歸約(data reduction)1195.3.6微軟數(shù)據(jù)轉換服務(D

48、TS)1205.4數(shù)據(jù)挖掘的模型建立與理解1205.4.1關于模型的準確性1235.4.2關于模型的可理解性1235.4.3關于模型的性能1245.4.4描述和可視化1245.4.5驗證與評估1255.5數(shù)據(jù)挖掘中常見的一些問題1275.5.1商業(yè)用戶提出的問題1275.5.2技術問題1275.5.3數(shù)據(jù)挖掘應用問題1275.5.4實施數(shù)據(jù)挖掘項目考慮的問題1285.

49、5.5數(shù)據(jù)挖掘對社會的影響―—有關隱私問題1285.6事先無法預測的有價值知識129思考練習題五130,5.1.1 SEMMA方法,SAS的Enterprise Miner中包含了一個可以影射為SEMMA方法的分析流圖SAS的SEMMA方法即抽樣(sample)、探索(explore)、修改(modify)、模型(model)和評價(assess)等英文頭的縮寫,它是由一個過程流圖驅動的,5.1.2 數(shù)據(jù)挖掘的基本流程,

50、5.2 確定主題和定義數(shù)據(jù)挖掘任務,首先確定與任務相關的數(shù)據(jù),即我想挖掘什么數(shù)據(jù)集 確定數(shù)據(jù)挖掘研究的范圍,即想挖掘什么類型的知識,什么背景知識在這里可能有用,哪些度量可以用來評估模式的興趣度,5.2.1 確定主題,保持力控制、風險預測、收益率分析、數(shù)據(jù)趨勢分析、雇員分析、區(qū)域分析、分類、聚類和可視化研究都可作為主題的類型。,5.2.2 定義數(shù)據(jù)挖掘任務,1)首先定義與任務相關的數(shù)據(jù),即要確定數(shù)據(jù)選擇的條件、數(shù)據(jù)分組條件、相關屬性或

51、維等。要使得挖掘效率高,可建立視圖進行挖掘,數(shù)據(jù)倉庫可滿足這些條件。2)確定與數(shù)據(jù)挖掘任務相關的知識類型,即從特征化和判別式、關聯(lián)、分類、預測、聚類和演變分析等中找出一種或幾種類型。模式模板,包括元模式(元規(guī)則或元查詢)可以指導知識的發(fā)現(xiàn)過程。3)獲取一定的背景知識,背景知識是正確的作出概念分層和用戶對數(shù)據(jù)保持聯(lián)系。概念分層包括模式分層、集合分組分層、操作導出的分層和基于規(guī)則的分層。4)度量與數(shù)據(jù)挖掘任務相關的模式興趣度:興趣度度

52、量包括評估模式的簡潔性(如規(guī)則長度)、確定性(置信度)、實用性(支持度)和新穎性。,5.3.1數(shù)據(jù)的收集和準備,數(shù)據(jù)的收集和準備是開展數(shù)據(jù)挖掘的最大障礙。數(shù)據(jù)準備一般包含兩方面:從多種數(shù)據(jù)源中去綜合數(shù)據(jù)挖掘所需要的數(shù)據(jù),保證數(shù)據(jù)質(zhì)量的綜合性、易用性和時效性,這有可能要用到數(shù)據(jù)倉庫的思想和技術;如何從現(xiàn)有數(shù)據(jù)中衍生出所需要的指標,這主要取決于數(shù)據(jù)挖掘者的分析經(jīng)驗和工具的方便性。,5.3.2 數(shù)據(jù)清理(data cleaning),

53、數(shù)據(jù)清理要解決如下的一些問題:(1)數(shù)據(jù)質(zhì)量(2)冗余數(shù)據(jù)(3)過時數(shù)據(jù)(4)術語定義的變化數(shù)據(jù)清洗將會使數(shù)據(jù)集產(chǎn)生哪些問題 1)一致性問題 2)失效數(shù)據(jù)的清洗問題 3)印刷錯誤的清洗問題 4)數(shù)值缺失 5)數(shù)據(jù)導出,5.3.3 數(shù)據(jù)集成(data integration),數(shù)據(jù)集成的關鍵是獲取數(shù)據(jù),如訪問數(shù)據(jù)倉庫。通過如下幾種方法訪問數(shù)據(jù):1)通過基于事務的關系數(shù)據(jù)庫或基于PC的數(shù)據(jù)庫訪問數(shù)據(jù) 2)通過數(shù)據(jù)

54、轉換工具訪問數(shù)據(jù) 3)用查詢工具訪問數(shù)據(jù) 4)從平面文件中訪問數(shù)據(jù),5.3.4 數(shù)據(jù)變換(data transformation),數(shù)據(jù)變換就是將數(shù)據(jù)進行規(guī)范化和聚集。規(guī)范化可以改進涉及距離度量的挖掘算法的精度和有效性。常用的方法有平滑(包括分箱、聚類和回歸)來去掉噪聲數(shù)據(jù);聚集來對數(shù)據(jù)進行匯總;數(shù)據(jù)概化使用高層次概念替換低層次“原始”數(shù)據(jù)來進行概念分層;規(guī)范化將屬性數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間;屬性構造(特征構

55、造)來幫助提高精度和對高維數(shù)據(jù)結構的理解。,5.3.5 數(shù)據(jù)歸約(data reduction),數(shù)據(jù)歸約通過聚集、刪除冗余特性或聚類等方法來壓縮數(shù)據(jù)。 常用的方法:數(shù)據(jù)立方體聚集維歸約數(shù)據(jù)壓縮數(shù)值歸約離散化概念分層產(chǎn)生,5.3.6 微軟數(shù)據(jù)轉換服務(DTS),微軟數(shù)據(jù)轉換服務(microsoft data transformaton serverics,DTS)是一個從不同的數(shù)據(jù)源收集數(shù)據(jù)的重要工具。 DTS是一個面

56、向批處理的程序。包( package)是基本的DTS單元,DTS對象包含在包中。包的4種對象類型包括:數(shù)據(jù)連接、DTS任務、數(shù)據(jù)轉換和工作流。 DTS的內(nèi)容包括:COM對象集合,其中每一個對象完成一項特定的任務;OLE DB數(shù)據(jù)連接的中心;工作流程開發(fā)平臺和應用開發(fā)環(huán)境。,5.4 數(shù)據(jù)挖掘的模型建立與理解,數(shù)據(jù)挖掘中的各種方法 :1)概要統(tǒng)計(summary statistics) 2)關聯(lián)度分析(find dependenc

57、ies) 3)聚類分析(cluster ) 4)線性回歸是最常用的統(tǒng)計分析方法 5)市場貨籃分析(market basket analysis) 6)分類分析(classify) 7)近鄰預測(nearest neighbor) 8)神經(jīng)網(wǎng)絡預測,神經(jīng)網(wǎng)絡(neural networks) 9)決策樹分析(dcision tree,DT) 10)規(guī)則分析(find laws)算法,5.4.1 關于模型的準確性,由數(shù)據(jù)挖掘

58、工具產(chǎn)生的模型一般可通過時間來檢驗其有多大程度的準確性,但是如果模型的準確性受到政府法令的限制并且必須是經(jīng)過驗證的,則就有必要綜合地使用幾種不同的數(shù)據(jù)挖掘方法。例如,HNC公司數(shù)據(jù)挖掘產(chǎn)品Falcon在偵測信用卡欺詐方面是一個很好的工具。但它并沒有在信用卡貸款審批中得到廣泛使用,其原因是受到了政府規(guī)章的限制。,5.4.2 關于模型的可理解性,可供考慮的因素: 首先,模型是否可以使我們了解輸入對結果會產(chǎn)生什么作用?其次,模型是否可以

59、使我們了解預測為什么會成功或失?。康谌?,模型是否可以使我們對復雜的數(shù)據(jù)集產(chǎn)生預測的結果?第四,模型是否能對其產(chǎn)生的結果進行檢測?,5.4.3關于模型的性能,對模性的性能考慮可以分為兩個方面:一是你需要以什么速度構造出模型;二是你需要以什么速度從模型中獲得預測結果。,5.4.4 描述和可視化,描述和可視化(description and visualization),是通過規(guī)則、表、報告、圖表、圖像、判定樹和數(shù)據(jù)立方體下鉆或上卷

60、等形式對數(shù)據(jù)挖掘的結果進行表示的方式。圖形可以幫助人們更好的理解原始數(shù)據(jù)。通過在地圖上面疊加產(chǎn)品的銷量來顯示產(chǎn)品的銷量情況。同時,也可用顏色表示各個地方的銷量,以標識銷量最大的區(qū)域。樹形可視化工具以層次化互連節(jié)點的方式表示數(shù)據(jù),從而展示出這些數(shù)據(jù)的數(shù)量和關系特征。,5.4.5驗證與評估,1.驗證評價模型應考慮以下幾方面的問題:第一,用與建立模型相同的數(shù)據(jù)集對模型進行評價比用不同的數(shù)據(jù)集對其進行評價會獲得更好的結果;第二,模型的

61、某些預測結果會比其他預測結果更加準確;第三,由于模型以樣例數(shù)據(jù)為基礎建立的,應具有好的結果。2.評估雖然不同的數(shù)據(jù)挖掘方法分類、聚類、可視化和關聯(lián)分析等方法都匯集在數(shù)據(jù)挖掘算法下,但它們的確存在著很大的區(qū)別。數(shù)據(jù)挖掘從人工智能領域借鑒了很多東西,既然人工智能技術的種類繁多,我們也就不難理解存在眾多不同數(shù)據(jù)挖掘方法的原因了。,5.5 數(shù)據(jù)挖掘中常見的一些問題,商業(yè)用戶提出的問題技術問題數(shù)據(jù)挖掘應用問題實施數(shù)據(jù)挖掘項目考慮的問題

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論