2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩47頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、,《數(shù)據(jù)挖掘》廣東技術(shù)師范學(xué)院計(jì)科系 葉海山,2,,書 《數(shù)據(jù)挖掘概念與技術(shù)》作者: (加)JIAWEI HAN MICHELINE KAMBER 出版社: 機(jī)械工業(yè)出版社網(wǎng)站 1、數(shù)據(jù)倉庫之路 http://www.dwway.com/ 2、數(shù)據(jù)挖掘討論組 http://www.dmgroup.org.cn/ 3、數(shù)據(jù)挖掘研究研 http://www.dmresearch.net/,3,第1章 緒論,1.1

2、初識數(shù)據(jù)挖掘1.2 初識數(shù)據(jù)倉庫1.3 進(jìn)一步理解數(shù)據(jù)挖掘 1.4 數(shù)據(jù)挖掘應(yīng)用實(shí)例1.5 數(shù)據(jù)挖掘的發(fā)展趨勢,4,第1章 緒論,數(shù)據(jù)挖掘(Data mining, DM)技術(shù)是一門綜合性的技術(shù)領(lǐng)域,主要涉及數(shù)據(jù)庫、人工智能和數(shù)理統(tǒng)計(jì)3個技術(shù)領(lǐng)域。,5,第1章 緒論,1.1 初識數(shù)據(jù)挖掘1.1.1數(shù)據(jù)挖掘的產(chǎn)生 產(chǎn)生的前提:從大量數(shù)據(jù)中找出隱藏在其中的、有用的信息和規(guī)律;計(jì)算機(jī)技術(shù)和信息技術(shù)的發(fā)展使其有能力處理這樣大量的數(shù)據(jù)

3、。,6,第1章 緒論,1.1.2數(shù)據(jù)挖掘的應(yīng)用價(jià)值 應(yīng)用數(shù)據(jù)挖掘從大量數(shù)據(jù)中所發(fā)現(xiàn)的規(guī)律并不是“放置四海而皆準(zhǔn)”的規(guī)律,而是面向某一應(yīng)用的規(guī)律,具有具體的指導(dǎo)意義。 成功例子: 零售業(yè)的沃爾馬“啤酒與尿布”規(guī)律 Google 中國寶山鋼鐵公司1995年開始利用數(shù)據(jù)挖掘技術(shù)提高熱軋產(chǎn)品質(zhì)量、合理配礦 中國鐵道部1998年開始利用數(shù)據(jù)挖掘技術(shù)分析春運(yùn)期間的鐵路客流量,挖掘影響鐵路客運(yùn)總量的關(guān)鍵因素 ……,

4、7,第1章 緒論,1.1.3數(shù)據(jù)挖掘的發(fā)展過程 八十年代人工智能(AI)研究項(xiàng)目失敗后,轉(zhuǎn)入實(shí)際應(yīng)用時提出的。 1989年國際上第一次關(guān)于數(shù)據(jù)挖掘與知識發(fā)現(xiàn)的研討會在美國的底特律召開,在此次會議上第一次提出了知識發(fā)現(xiàn)(Knowledge Discovery in Database, KDD)一詞。 1995年,在加拿大召開了第一屆KDD和DM國際學(xué)術(shù)會議。會議對KDD做了確切的定義 。 從九十年代中后期開始,

5、KDD和DM已成為研究的熱點(diǎn)和焦點(diǎn)。,8,,,9,第1章 緒論,1.1.4 數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘:從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。 原始數(shù)據(jù)可以是結(jié)構(gòu)化的也可以是半結(jié)構(gòu)化的。 發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的,也可以是非數(shù)學(xué)的;可以是演繹的,也可以是歸納的。,10,第1章 緒論,1.2 初識數(shù)據(jù)倉庫1.2.1 數(shù)據(jù)倉庫的產(chǎn)生

6、1988年IBM愛爾蘭公司第一次提出了“信息倉庫”的概念。 90年代初數(shù)據(jù)倉庫的基本原理、框架架構(gòu),分析系統(tǒng)的主要原則都已經(jīng)確定,主要的技術(shù)已具備,一些公司開始建立數(shù)據(jù)倉庫。 92年美國著名的信息工程學(xué)家William H.Inmon 在《Building the Data Warehouse》(《建立數(shù)據(jù)倉庫》)一書中首先系統(tǒng)的闡述了數(shù)據(jù)倉庫的思想、理論。被人們尊稱為“數(shù)據(jù)倉庫之父”。,11,第1章 緒論,1.2.2

7、數(shù)據(jù)倉庫的應(yīng)用價(jià)值 傳統(tǒng)數(shù)據(jù)庫的處理方式——聯(lián)機(jī)事務(wù)處理(On Line Transaction Process,OLTP)與決策分析中的數(shù)據(jù)需求不相稱,主要表現(xiàn)在: 1.決策處理的系統(tǒng)響應(yīng)問題 2.決策數(shù)據(jù)需求的問題 3.決策數(shù)據(jù)操作的問題 決策分析需要一個能夠不受傳統(tǒng)事務(wù)處理的約束、高效率處理決策分析數(shù)據(jù)的支持環(huán)境,這就是DW存在的價(jià)值。,12,第1章 緒論,1.2.3數(shù)據(jù)倉庫的發(fā)展過程

8、 1995年開始盛行,作為數(shù)據(jù)庫的高端擴(kuò)展技術(shù)一直是一大熱點(diǎn)。 IBM所推崇的商業(yè)智能(BI)核心就是數(shù)據(jù)倉庫; 微軟的SQL Server 7.0 已經(jīng)綁定了OLAP服務(wù)器,將數(shù)據(jù)倉庫功能集成到數(shù)據(jù)庫中,并建立了數(shù)據(jù)倉庫聯(lián)盟; Oracle公司的Oracle Express系列OLAP產(chǎn)品用來提供決策支持。,13,第1章 緒論,1.2.4 數(shù)據(jù)倉庫的定義W.H.Inmon的定義:數(shù)據(jù)倉庫是一個面向主題的、集

9、成的、非易失的且隨時間變化的數(shù)據(jù)集合,用來支持管理人員的決策。公認(rèn)的定義:數(shù)據(jù)倉庫(Data Warehouse,DW)是面向主題的、集成的、不可更新的(穩(wěn)定性)隨時間不斷變化(不同時間)的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程。,14,第1章 緒論,1.2.5 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系1.DW系統(tǒng)的數(shù)據(jù)可以作為DM的數(shù)據(jù)源 DW系統(tǒng)能夠滿足DM技術(shù)對數(shù)據(jù)環(huán)境的要求,可以直接作為DM的數(shù)據(jù)源。 2.DM的數(shù)據(jù)源不一定必須是

10、DW系統(tǒng) DM的數(shù)據(jù)源不一定必須是DW,可以是任何數(shù)據(jù)文件或格式,但必須事先進(jìn)行數(shù)據(jù)預(yù)處理,處理成適合DM的數(shù)據(jù)。,15,第1章 緒論,1.3 進(jìn)一步理解數(shù)據(jù)挖掘 1.3.1數(shù)據(jù)挖掘的功能(7個方面):1.概念描述:對某類對象的內(nèi)涵進(jìn)行描述,并概括這類對象的有關(guān)特征。(1)特征性描述——共同特征(2)區(qū)別性描述——相互區(qū)別2.關(guān)聯(lián)分析 若兩個或多個變量間存在著某種規(guī)律性,就稱為關(guān)聯(lián)。 關(guān)聯(lián)分析的目的就是找出數(shù)據(jù)中隱

11、藏的關(guān)聯(lián)網(wǎng)。,16,第1章 緒論,3.分類與預(yù)測(1)分類——依照所分析對象的屬性分門別類,加以定義,建立組類。(2)預(yù)測——利用歷史數(shù)據(jù)建立模型,再運(yùn)用最新數(shù)據(jù)作為輸入值,獲得未來變化的趨勢或者評估給定樣本可能具有的屬性值或值的范圍。4.聚類分析 客觀地按被處理對象的特征分類,將有相同特征的對象歸為一類。5.趨勢分析 趨勢分析——時間序列分析,從相當(dāng)長的時間的發(fā)展中發(fā)現(xiàn)規(guī)律和趨勢。,17,第1章 緒論,6.孤立點(diǎn)分析

12、 孤立點(diǎn):數(shù)據(jù)庫中包含的一些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)。7.偏差分析 偏差分析——比較分析,是對差異和極端特例的描述,揭示事物偏離常規(guī)的異?,F(xiàn)象,18,第1章 緒論,1.3.2 數(shù)據(jù)挖掘常用技術(shù)1.聚類檢測方法 無指導(dǎo)的知識發(fā)現(xiàn)或無監(jiān)督學(xué)習(xí),使同一個簇內(nèi)的任意兩個對象之間具有較高的相似性,不同簇間的兩個對象之間具有較高的相異性。,19,第1章 緒論,2.決策樹方法 應(yīng)用于分類和預(yù)測,提供了一種展示在什么條件

13、下會得到什么值這類規(guī)則的方法,一個決策樹表示一系列的問題,每個問題決定了繼續(xù)下去的問題會是什么。 適合于處理非數(shù)值型數(shù)據(jù),需要在生成決策樹后再對決策樹進(jìn)行剪枝處理,最后將決策樹轉(zhuǎn)化為規(guī)則,用于對新事例進(jìn)行分類。,20,第1章 緒論,3.人工神經(jīng)網(wǎng)絡(luò)方法 主要用于分類、聚類、特征挖掘、預(yù)測等方面。通過向一個訓(xùn)練數(shù)據(jù)集學(xué)習(xí)和應(yīng)用所學(xué)知識生成分類和預(yù)測的模式。 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)分為輸入層、輸出層和隱含層(中間層)。

14、 人工神經(jīng)網(wǎng)絡(luò)方法:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)。,21,第1章 緒論,4.遺傳算法 模仿人工選擇培育良種的思路,從一個初始規(guī)則集合開始,迭代的通過交換對象成員產(chǎn)生群體(繁殖),評估并擇優(yōu)復(fù)制逐代積累計(jì)算,最終得到最有價(jià)值的知識集。 遺傳算法基本算子: 繁殖——從舊種群選擇生命力強(qiáng)的個體產(chǎn)生新種群 交叉——選擇兩個不同個體的部分進(jìn)行交換,形成新個體 變異——對某些個體的某些基因進(jìn)行變異,22,5.關(guān)

15、聯(lián)分析方法,適合于從關(guān)系中挖掘知識包含:(1)關(guān)聯(lián)發(fā)現(xiàn)算法:得到關(guān)聯(lián)規(guī)則、找出關(guān)聯(lián)組合,在關(guān)聯(lián)組合中,如果出現(xiàn)某一項(xiàng),則另一項(xiàng)也會出現(xiàn)。(2)序列模式發(fā)現(xiàn)算法:發(fā)現(xiàn)在時間序列上,一個項(xiàng)目集之后的項(xiàng)目集是什么,即找到時間上連續(xù)的事件。(3)類似的時序發(fā)現(xiàn)算法:先找到一個事件順序,再推測出其他類似的事件順序。,23,第1章 緒論,6.基于記憶的推理算法 使用一個模型的已知實(shí)例(基本數(shù)據(jù)集或訓(xùn)練數(shù)據(jù)集)來預(yù)測未知的實(shí)例

16、。,24,1.3.3 數(shù)據(jù)挖掘的過程,,1.確定業(yè)務(wù)對象2.數(shù)據(jù)準(zhǔn)備:數(shù)據(jù)的選擇、數(shù)據(jù)的預(yù)處理和數(shù)據(jù)的轉(zhuǎn)換。3.數(shù)據(jù)挖掘4.結(jié)果分析及知識同化,25,典型數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu),,,,,,數(shù)據(jù)倉庫,,,,,,,,數(shù)據(jù)清洗,過濾,,,,,數(shù)據(jù)庫,,,數(shù)據(jù)庫或數(shù)據(jù)倉庫服務(wù)器,數(shù)據(jù)挖掘引擎,模式評估,圖形用戶界面,,,,,,,,,,知識庫,數(shù)據(jù)集成,26,并非所有的東西都是數(shù)據(jù)挖掘,基于數(shù)據(jù)倉庫的OLAP系統(tǒng)OLAP系統(tǒng)專注于數(shù)據(jù)的匯

17、總,而數(shù)據(jù)挖掘系統(tǒng)可以對數(shù)據(jù)進(jìn)行多種復(fù)雜的處理。機(jī)器學(xué)習(xí)系統(tǒng),數(shù)據(jù)統(tǒng)計(jì)分析系統(tǒng)這些系統(tǒng)所處理的數(shù)據(jù)容量往往很有限。信息系統(tǒng)專注于當(dāng)前數(shù)據(jù)的查詢處理,服務(wù)于日常應(yīng)用。相比于上述系統(tǒng),數(shù)據(jù)挖掘系統(tǒng)關(guān)注更廣的范圍,是一個多學(xué)科的融合。,27,在何種數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘(數(shù)據(jù)源),關(guān)系數(shù)據(jù)庫RDBMS數(shù)據(jù)倉庫事務(wù)數(shù)據(jù)庫高級數(shù)據(jù)庫系統(tǒng)和信息庫空間數(shù)據(jù)庫時間數(shù)據(jù)庫和時間序列數(shù)據(jù)庫流數(shù)據(jù)多媒體數(shù)據(jù)庫面向?qū)ο髷?shù)據(jù)庫和對象-關(guān)系

18、數(shù)據(jù)庫異種數(shù)據(jù)庫和歷史(legacy)數(shù)據(jù)庫文本數(shù)據(jù)庫和萬維網(wǎng)(WWW),28,1.關(guān)系數(shù)據(jù)庫,DBMS--相互關(guān)聯(lián)的數(shù)據(jù)集合和一套用于管理和訪問數(shù)據(jù)的軟件程序,建立數(shù)據(jù)庫結(jié)構(gòu)定義、數(shù)據(jù)存儲、并發(fā)、共享、分布式訪問、保證信息存儲一致性和安全性的機(jī)制。數(shù)據(jù)庫(Database)由一系列表(Table)組成,其中Table是一個行列二維表結(jié)構(gòu)。數(shù)據(jù)挖掘在DBMS中的作用用SQL可以做什么?

19、 –上個季度賣出了什么商品?–給我列出上月每個部門的總銷售量–哪個銷售員賣出的商品最多Data Mining又能做什么?–預(yù)測新顧客的信譽(yù)風(fēng)險(xiǎn)–檢查商品銷售變差的原因它是數(shù)據(jù)挖掘研究的主要數(shù)據(jù)形式,29,2.數(shù)據(jù)倉庫,從多個數(shù)據(jù)源搜集數(shù)據(jù),存儲于一個統(tǒng)一的數(shù)據(jù)模式下,通常駐留在單一站點(diǎn)。特點(diǎn): 面向主題的,集成的,時變的,非易失的;,30,3.事務(wù)數(shù)據(jù)庫,存儲事務(wù)信息的數(shù)據(jù)庫,由一個文件組成,其中每個記錄

20、代表一個事務(wù)。,31,空間數(shù)據(jù)庫,空間數(shù)據(jù)庫是指在關(guān)系型數(shù)據(jù)庫(DBMS)內(nèi)部對地理信息進(jìn)行物理存儲??臻g數(shù)據(jù)庫中存儲的海量數(shù)據(jù)包括對象的空間拓?fù)涮卣?、非空間屬性特征以及對象在時間上的狀態(tài)變化。用途–森林和生態(tài)環(huán)境計(jì)劃–提供公共設(shè)施(電話、電纜、管道、污水排放)信息數(shù)據(jù)挖掘技術(shù)的應(yīng)用:–回答某一區(qū)域的居民分布情況–分析氣候、交通等因素對城市居民遷移的作用,32,時間數(shù)據(jù)庫和時序數(shù)據(jù)庫,兩者都存儲與時間有關(guān)的數(shù)據(jù)時間數(shù)據(jù)庫通

21、常存放包含時間相關(guān)屬性的數(shù)據(jù)。時序數(shù)據(jù)庫存放隨時間變化的值序列(例如:股票交易) 。數(shù)據(jù)挖掘的作用,可以通過研究事物發(fā)生發(fā)展的過程,有助于揭示事物發(fā)展的本質(zhì)規(guī)律,可以發(fā)現(xiàn)數(shù)據(jù)對象的演變特征或?qū)ο笞兓厔?。–發(fā)現(xiàn)對象演化特征和變化趨勢–銀行根據(jù)顧客流量調(diào)度銀行操作–股票投資決策,33,流數(shù)據(jù),與傳統(tǒng)的數(shù)據(jù)庫技術(shù)中的靜態(tài)數(shù)據(jù)不同,流數(shù)據(jù)是連續(xù)的、有序的、變化的、快速的、大量的數(shù)據(jù)輸入的數(shù)據(jù)。主要應(yīng)用場合網(wǎng)絡(luò)監(jiān)控網(wǎng)頁點(diǎn)擊流流媒

22、體…等等與傳統(tǒng)數(shù)據(jù)庫技術(shù)相比,流數(shù)據(jù)在存儲、查詢、訪問、實(shí)時性的要求等方面都有很大區(qū)別。,34,多媒體數(shù)據(jù)庫,多媒體數(shù)據(jù)庫實(shí)現(xiàn)用計(jì)算機(jī)管理龐大復(fù)雜的多媒體數(shù)據(jù),主要包括包括圖形(graphics)、圖象(image)、聲音(audio)、視頻(video)等等,現(xiàn)代數(shù)據(jù)庫技術(shù)一般將這些多媒體數(shù)據(jù)以二進(jìn)制大對象的形式進(jìn)行存儲。對于多媒體數(shù)據(jù)庫的數(shù)據(jù)挖掘,需要將存儲和檢索技術(shù)相結(jié)合。目前的主要方法包括構(gòu)造多媒體數(shù)據(jù)立方體、多媒體數(shù)據(jù)庫的

23、多特征提取和基于相似性的模式匹配。,35,面向?qū)ο髷?shù)據(jù)庫和對象-關(guān)系數(shù)據(jù)庫,面向?qū)ο髷?shù)據(jù)庫是面向?qū)ο蠹夹g(shù)和數(shù)據(jù)庫技術(shù)結(jié)合的產(chǎn)物,該技術(shù)對數(shù)據(jù)以對象的形式進(jìn)行存儲,并在這個基礎(chǔ)上實(shí)現(xiàn)了傳統(tǒng)數(shù)據(jù)庫的功能,包括持久性、并發(fā)控制、可恢復(fù)性、一致性和查詢數(shù)據(jù)庫的能力等。對象-關(guān)系數(shù)據(jù)庫基于對象-關(guān)系模型構(gòu)造,該模型通過處理復(fù)雜對象的豐富數(shù)據(jù)類型和對象定位等功能,擴(kuò)充關(guān)系模型。面向?qū)ο髷?shù)據(jù)庫和對象-關(guān)系數(shù)據(jù)庫中的數(shù)據(jù)挖掘會涉及一些新的技術(shù),比如

24、處理復(fù)雜對象結(jié)構(gòu)、復(fù)雜數(shù)據(jù)類型、類和子類層次結(jié)構(gòu)、構(gòu)造繼承以及方法和過程等等。,36,異構(gòu)數(shù)據(jù)庫和歷史遺留(legacy)數(shù)據(jù)庫,歷史遺留數(shù)據(jù)庫是隨著信息技術(shù)發(fā)展中所保留下來的一系列數(shù)據(jù)庫是十分有用的。這些數(shù)據(jù)庫可能是關(guān)系數(shù)據(jù)庫、層次數(shù)據(jù)庫、網(wǎng)狀數(shù)據(jù)庫、文件系統(tǒng)等等。數(shù)據(jù)挖掘必須處理各種數(shù)據(jù)庫間的轉(zhuǎn)換問題 WEB SERVICE技術(shù)的出現(xiàn)有利于異構(gòu)數(shù)據(jù)庫數(shù)據(jù)的重新利用。,37,文本數(shù)據(jù)庫和萬維網(wǎng)(WWW),文本數(shù)據(jù)庫存儲的是對對象的

25、文字性描述,通常是長句和段落,如作者信息、錯誤報(bào)告等。文本數(shù)據(jù)庫的分類無結(jié)構(gòu)類型(大部分的文本資料和網(wǎng)頁)半結(jié)構(gòu)類型(XML數(shù)據(jù))結(jié)構(gòu)類型(圖書館數(shù)據(jù))萬維網(wǎng)(WWW)可以被看成最大的文本數(shù)據(jù)庫非結(jié)構(gòu)化、缺乏統(tǒng)一的模式前景樂觀、困難教多數(shù)據(jù)挖掘內(nèi)容WEB內(nèi)容檢索WEB結(jié)構(gòu)檢索WEB訪問模式檢索,38,1.4 數(shù)據(jù)挖掘應(yīng)用實(shí)例,1.4.1 應(yīng)用領(lǐng)域 1.金融業(yè) 2.保險(xiǎn)業(yè) 3.零售業(yè) 4.科學(xué)研究

26、 5.其他領(lǐng)域1.4.2 典型案例,39,數(shù)據(jù)挖掘在企業(yè)的應(yīng)用——市場分析和管理,數(shù)據(jù)從那里來?信用卡交易, 會員卡, 商家的優(yōu)惠卷, 消費(fèi)者投訴電話, 公眾生活方式研究目標(biāo)市場構(gòu)建一系列的“客戶群模型”,這些顧客具有相同特征: 興趣愛好, 收入水平, 消費(fèi)習(xí)慣,等等確定顧客的購買模式應(yīng)用1:交叉市場分析貨物銷售之間的相互聯(lián)系和相關(guān)性,以及基于這種聯(lián)系上的預(yù)測,40,,應(yīng)用2:顧客分析哪類顧客購買那種商品 (聚類分析或分

27、類預(yù)測)應(yīng)用3:客戶需求分析確定適合不同顧客的最佳商品預(yù)測何種因素能夠吸引新顧客應(yīng)用4:提供概要信息多維度的綜合報(bào)告統(tǒng)計(jì)概要信息 (數(shù)據(jù)的集中趨勢和變化),41,數(shù)據(jù)挖掘在企業(yè)的應(yīng)用——公司分析和風(fēng)險(xiǎn)管理,財(cái)務(wù)計(jì)劃現(xiàn)金流轉(zhuǎn)分析和預(yù)測交叉區(qū)域分析和時間序列分析(財(cái)務(wù)資金比率,趨勢分析等等)資源計(jì)劃總結(jié)和比較資源和花費(fèi)競爭對競爭者和市場趨勢的監(jiān)控 將顧客按等級分組和基于等級的定價(jià)過程將定價(jià)策略應(yīng)用于競爭更激烈的市

28、場中,42,數(shù)據(jù)挖掘在企業(yè)的應(yīng)用——欺詐行為檢測和異常模式的發(fā)現(xiàn),方法: 對欺騙行為進(jìn)行聚類和建模,并進(jìn)行孤立點(diǎn)分析應(yīng)用: 保險(xiǎn)、衛(wèi)生保健、零售業(yè)、信用卡服務(wù)、電信等汽車保險(xiǎn): 對相撞事件的分析 ,發(fā)掘索賠是否是欺詐行為洗錢: 發(fā)現(xiàn)可疑的貨幣交易行為 醫(yī)療保險(xiǎn)職業(yè)病人, 醫(yī)生以及相關(guān)數(shù)據(jù)分析不必要的或相關(guān)的測試電信: 電話呼叫欺騙行為電話呼叫模型: 呼叫目的地,持續(xù)時間,日或周呼叫次數(shù). 分析該模型發(fā)現(xiàn)與期待標(biāo)準(zhǔn)的偏差

29、零售產(chǎn)業(yè)分析師估計(jì)有38%的零售額下降是由于雇員的不誠實(shí)行為造成的,43,反思1:所有模式都是有趣的嗎?,數(shù)據(jù)挖掘可能產(chǎn)生數(shù)以千計(jì)的模式或規(guī)則,但并不是所有的模式或規(guī)則都是令人感興趣的。模式興趣度的度量一個模式是有趣的,則其滿足四個條件:它易于被人理解 ;在某種程度上,對于新的或測試數(shù)據(jù)是有效的;具有潛在效用;新穎的;模式興趣度的客觀和主觀度量客觀度量: 基于所發(fā)現(xiàn)模式的結(jié)構(gòu)和關(guān)于它們的統(tǒng)計(jì), 比如: 支持度Supp

30、ort、置信度Confidence等等主觀度量: 基于用戶對數(shù)據(jù)的判斷。比如:出乎意料的、新穎的、可行動的等等,44,反思2:能夠產(chǎn)生所有有趣模式并且僅產(chǎn)生有趣模式嗎?,找出所有有趣的模式: 數(shù)據(jù)挖掘算法的完全性問題數(shù)據(jù)挖掘系統(tǒng)能夠產(chǎn)生所有有趣的模式嗎?試探搜索 vs.窮舉搜索關(guān)聯(lián) vs. 分類 vs. 聚類只搜索有趣的模式: 數(shù)據(jù)挖掘算法的最優(yōu)化問題數(shù)據(jù)挖掘系統(tǒng)可以僅僅發(fā)現(xiàn)有趣的模式嗎?方法首先生成所有模式然后過濾那些

31、無趣的.僅僅生成有趣的模式—挖掘查詢優(yōu)化,45,數(shù)據(jù)挖掘系統(tǒng)的分類,數(shù)據(jù)挖掘的多學(xué)科融合的特性,決定了數(shù)據(jù)挖掘的研究將產(chǎn)生種類繁多的數(shù)據(jù)挖掘系統(tǒng)。根據(jù)所挖掘的數(shù)據(jù)庫分類關(guān)系數(shù)據(jù)庫,事務(wù)數(shù)據(jù)庫,流式數(shù)據(jù),面向?qū)ο髷?shù)據(jù)庫,對象關(guān)系數(shù)據(jù)庫,數(shù)據(jù)倉庫,空間數(shù)據(jù)庫,時序數(shù)據(jù)庫,文本數(shù)據(jù)庫,多媒體數(shù)據(jù)庫,異構(gòu)數(shù)據(jù)庫,歷史數(shù)據(jù)庫,WWW,46,,根據(jù)挖掘的知識類型特征分析, 區(qū)分, 關(guān)聯(lián)分析, 分類聚類, 孤立點(diǎn)分析/演變分析, 偏差分析等等

32、.多種方法的集成和多層機(jī)挖掘根據(jù)挖掘所用的技術(shù)面向數(shù)據(jù)庫的挖掘、數(shù)據(jù)倉庫 、OLAP、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)、可視化等等.根據(jù)挖掘所用的應(yīng)用金融,電信,銀行, 欺詐分析, DNA分析,股票市場, Web挖掘等等.,47,1.5 數(shù)據(jù)挖掘的發(fā)展趨勢,1.5.1 數(shù)據(jù)挖掘研究方向?qū)iT用于知識發(fā)現(xiàn)的形式化和標(biāo)準(zhǔn)化的數(shù)據(jù)挖掘語言;數(shù)據(jù)挖掘過程中的便于用戶理解的及人機(jī)交互的可視化方法;網(wǎng)絡(luò)環(huán)境下的數(shù)據(jù)挖掘技術(shù);加強(qiáng)對各種非結(jié)構(gòu)化數(shù)據(jù)的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論