2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩98頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)挖掘技術(shù)專(zhuān)題,數(shù)據(jù)挖掘技術(shù)的由來(lái) 數(shù)據(jù)挖掘的定義 數(shù)據(jù)挖掘應(yīng)用 數(shù)據(jù)挖掘的基本技術(shù) 數(shù)據(jù)挖掘的基本算法 基于Excel的數(shù)據(jù)挖掘軟件工具,數(shù)據(jù)挖掘技術(shù)的由來(lái),,我們現(xiàn)在已經(jīng)生活在一個(gè)網(wǎng)絡(luò)化的時(shí)代,網(wǎng)絡(luò)技術(shù)大大提高了人的生存質(zhì)量和人的素質(zhì),使人成為社會(huì)人、全球人。網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn)是什么?,網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn),數(shù)據(jù)挖掘技術(shù)的由來(lái),,《紐約時(shí)報(bào)》由60年代的10~20版擴(kuò)張至現(xiàn)在的100~200版,最高曾達(dá)1

2、572版;《北京青年報(bào)》也已是16~40版;《市場(chǎng)營(yíng)銷(xiāo)報(bào)》已達(dá)100版。在現(xiàn)實(shí)社會(huì)中,人均日閱讀時(shí)間通常為30~45分鐘,只能瀏覽一份24版的報(bào)紙。,網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn),數(shù)據(jù)挖掘技術(shù)的由來(lái),,大量信息在給人們帶來(lái)方便的同時(shí)也帶來(lái)了一大堆問(wèn)題:第一:是信息過(guò)量,難以消化;第二:是信息真假難以辨識(shí);第三:是信息安全難以保證;第四:是信息形式不一致,難以統(tǒng)一處理。,網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn),數(shù)據(jù)挖掘技術(shù)的由來(lái),,“

3、要學(xué)會(huì)拋棄信息” “如何才能不被信息淹沒(méi),而是從中及時(shí)發(fā)現(xiàn)有用的知識(shí)、提高信息利用率?”數(shù)據(jù)開(kāi)采和知識(shí)發(fā)現(xiàn)(DMKD)技術(shù)應(yīng)運(yùn)而生,網(wǎng)絡(luò)之后的下一個(gè)技術(shù)熱點(diǎn),數(shù)據(jù)挖掘技術(shù)的由來(lái),,隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來(lái)越多。激增的數(shù)據(jù)背后隱藏著許多重要的信息,人們希望能夠?qū)ζ溥M(jìn)行更高層次的分析,以便更好地利用這些數(shù)據(jù)。目前的數(shù)據(jù)庫(kù)系統(tǒng)可以高效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計(jì)等功能,但無(wú)法發(fā)現(xiàn)

4、數(shù)據(jù)中存在的關(guān)系和規(guī)則,無(wú)法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來(lái)的發(fā)展趨勢(shì)。缺乏挖掘數(shù)據(jù)背后隱藏的知識(shí)的手段,導(dǎo)致了“數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象。,數(shù)據(jù)爆炸但知識(shí)貧乏,數(shù)據(jù)挖掘技術(shù)的由來(lái),,海量數(shù)據(jù)搜集強(qiáng)大的多處理器計(jì)算機(jī)數(shù)據(jù)挖掘算法,支持?jǐn)?shù)據(jù)挖掘技術(shù)的基礎(chǔ),數(shù)據(jù)挖掘技術(shù)的由來(lái),,從商業(yè)數(shù)據(jù)到商業(yè)信息的進(jìn)化,數(shù)據(jù)挖掘技術(shù)的由來(lái),,數(shù)據(jù)挖掘逐漸演變的過(guò)程,機(jī)器學(xué)習(xí),專(zhuān)家系統(tǒng),機(jī)器學(xué)習(xí),,,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘(Data Mining)就是

5、從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。,技術(shù)上的定義及含義,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;并不要求發(fā)現(xiàn)放之四海皆準(zhǔn)的知識(shí),僅支持特定的發(fā)現(xiàn)問(wèn)題,技術(shù)上的定義及含義,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點(diǎn)是對(duì)商業(yè)數(shù)據(jù)庫(kù)中的大

6、量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。按企業(yè)既定業(yè)務(wù)目標(biāo),對(duì)大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性,并進(jìn)一步將其模型化的先進(jìn)有效的方法。,商業(yè)角度的定義,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)分析(如查詢、報(bào)表、聯(lián)機(jī)應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒(méi)有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識(shí).數(shù)據(jù)挖掘所得到的信息應(yīng)具有先未知,有效和可實(shí)用三個(gè)特征.,數(shù)據(jù)挖

7、掘與傳統(tǒng)分析方法的區(qū)別,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)倉(cāng)庫(kù)是為決策支持而不是為事務(wù)處理所設(shè)計(jì)的數(shù)據(jù)庫(kù),它是將不同來(lái)源的事務(wù)處理數(shù)據(jù)庫(kù)中對(duì)決策有用的數(shù)據(jù)提取出來(lái)而建立。數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展是數(shù)據(jù)挖掘的動(dòng)力之一。但數(shù)據(jù)挖掘既可以在數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行,也可以在傳統(tǒng)的事務(wù)型數(shù)據(jù)庫(kù)中進(jìn)行。,數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)源,數(shù)據(jù)倉(cāng)庫(kù),各分公司數(shù)據(jù)集市,分析數(shù)據(jù)集市,數(shù)據(jù)挖掘數(shù)據(jù)集市,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù),

8、數(shù)據(jù)源,數(shù)據(jù)挖掘庫(kù),數(shù)據(jù)挖掘的定義,,在線分析處理(OLAP, On-Line analytical processing)是一種增強(qiáng)的查詢技術(shù),是決策支持領(lǐng)域的一部分。但又不同于傳統(tǒng)的查詢技術(shù)。,數(shù)據(jù)挖掘和在線分析處理,數(shù)據(jù)挖掘的定義,,傳統(tǒng)的查詢和報(bào)表工具是告訴你數(shù)據(jù)庫(kù)中都有什么(what happened),OLAP則更進(jìn)一步告訴你下一步會(huì)怎么樣(What next)、和如果我采取這樣的措施又會(huì)怎么樣(What if)。用戶首先建

9、立一個(gè)假設(shè),然后用OLAP檢索數(shù)據(jù)庫(kù)來(lái)驗(yàn)證這個(gè)假設(shè)是否正確。,數(shù)據(jù)挖掘和在線分析處理,數(shù)據(jù)挖掘的定義,,比如,一個(gè)分析師想找到什么原因?qū)е铝速J款拖欠,他可能先做一個(gè)初始的假定,認(rèn)為低收入的人信用度也低,然后用OLAP來(lái)驗(yàn)證他這個(gè)假設(shè)。如果這個(gè)假設(shè)沒(méi)有被證實(shí),他可能去察看那些高負(fù)債的賬戶,如果還不行,他也許要把收入和負(fù)債一起考慮,一直進(jìn)行下去,直到找到他想要的結(jié)果或放棄。,數(shù)據(jù)挖掘和在線分析處理,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘與OLAP不同的

10、地方是,數(shù)據(jù)挖掘不是用于驗(yàn)證某個(gè)假定的模式(模型)的正確性,而是在數(shù)據(jù)庫(kù)中自己尋找模型。他在本質(zhì)上是一個(gè)歸納的過(guò)程。,數(shù)據(jù)挖掘和在線分析處理,數(shù)據(jù)挖掘的定義,,比如,一個(gè)用數(shù)據(jù)挖掘工具的分析師想找到引起貸款拖欠的風(fēng)險(xiǎn)因素。數(shù)據(jù)挖掘工具可能幫他找到高負(fù)債和低收入是引起這個(gè)問(wèn)題的因素,甚至還可能發(fā)現(xiàn)一些分析師從來(lái)沒(méi)有想過(guò)或試過(guò)的其他因素,比如年齡。,數(shù)據(jù)挖掘和在線分析處理,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析,數(shù)據(jù)挖掘,統(tǒng)計(jì)分析,

11、預(yù)測(cè),簡(jiǎn)單的方法,復(fù)雜的方法,數(shù)據(jù)挖掘的定義,,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí)和統(tǒng)計(jì)分析,數(shù)據(jù)挖掘,統(tǒng)計(jì)方法,模式識(shí)別,人工智能,封裝,預(yù)測(cè),數(shù)據(jù)挖掘的定義,,軟硬件發(fā)展對(duì)數(shù)據(jù)挖掘的影響,存貯性能的提高,計(jì)算能力的提高,并行處理技術(shù),數(shù)據(jù)挖掘應(yīng)用,,欺詐偵測(cè),AT&T 使用根據(jù)數(shù)據(jù)挖掘開(kāi)發(fā)的系統(tǒng)來(lái)偵測(cè)盜打國(guó)際電話的行為。由HNC 公司開(kāi)發(fā)的隊(duì)LCON 欺詐評(píng)估系統(tǒng)用于提示可能存在的盜用信用卡的交易。金融犯罪執(zhí)法網(wǎng)絡(luò)Al 系統(tǒng)(FAIS

12、)使用包括數(shù)據(jù)挖掘在內(nèi)的幾種技術(shù),識(shí)別大型現(xiàn)金交易中可能存在的洗錢(qián)行為。個(gè)人通訊高級(jí)安全(Advanced security for Personal communications)歐洲研究組織己經(jīng)利用無(wú)指導(dǎo)聚類(lèi)偵測(cè)移動(dòng)電話網(wǎng)絡(luò)中的欺詐。對(duì)每個(gè)用戶,系統(tǒng)儲(chǔ)存用戶的歷史和使用特征文件。在當(dāng)前使用與用戶的歷史情況有明顯區(qū)別時(shí),懷疑為欺詐行為。,數(shù)據(jù)挖掘應(yīng)用,,衛(wèi)生保健,Merck-Medco Managed care, Merck 的一個(gè)

13、醫(yī)藥保險(xiǎn)和處方電郵訂購(gòu)單位,使用數(shù)據(jù)挖掘來(lái)幫助找出對(duì)某種類(lèi)型的病人減少費(fèi)用但療效相同的治療方法。生物信息或基因數(shù)據(jù)挖掘則完全屬于另外一個(gè)領(lǐng)域,在商業(yè)上很難講有多大的價(jià)值,但對(duì)于人類(lèi)卻受益非淺。例如,基因的組合千變?nèi)f化,得某種病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進(jìn)而對(duì)其不同之處加以改變,使之成為正?;?這都需要數(shù)據(jù)挖掘技術(shù)的支持。,數(shù)據(jù)挖掘應(yīng)用,,商業(yè)和金融,Farmer‘s Group 有限公司如何使

14、用數(shù)據(jù)挖掘方法得出擁有跑車(chē)的人不具有高事故風(fēng)險(xiǎn)的假設(shè)。美國(guó)銀行(Bank of America )使用數(shù)據(jù)挖掘偵測(cè)哪個(gè)客戶正在使用美國(guó)銀行的哪種產(chǎn)品,以便他們能夠提供正確的產(chǎn)品和服務(wù)組合,更好地滿足客戶的需求。美國(guó)西部通信(US West Communications)根據(jù)諸如家庭的大小、家庭成員的平均年齡和所在地這些特征,使用數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)來(lái)確定客戶的傾向和需要。20 世紀(jì)Fox公司分析票房收入來(lái)確定哪個(gè)演員、情節(jié)和電

15、影在各市場(chǎng)環(huán)境中更容易為觀眾接受。,數(shù)據(jù)挖掘應(yīng)用,,科學(xué)應(yīng)用,γ射線爆是短暫的伽瑪射線反射,它來(lái)源于我們太陽(yáng)系之外。有關(guān)事件的記錄已經(jīng)超過(guò)1000 次。科學(xué)界普遍認(rèn)為存在兩種了射線爆。Mukherjee 等人使用統(tǒng)計(jì)聚類(lèi)分析法(一種數(shù)據(jù)挖掘方法)發(fā)現(xiàn)了第3 類(lèi)了射線爆。,數(shù)據(jù)挖掘應(yīng)用,,運(yùn)動(dòng)和游戲,大約20個(gè)NBA球隊(duì)使用了IBM公司開(kāi)發(fā)的數(shù)據(jù)挖掘應(yīng)用軟件Advanced Scout系統(tǒng)來(lái)優(yōu)化他們的戰(zhàn)術(shù)組合。例如Scout就因?yàn)檠芯苛四?/p>

16、術(shù)隊(duì)隊(duì)員不同的布陣安排,在與邁阿密熱隊(duì)的比賽中找到了獲勝的機(jī)會(huì)。游戲產(chǎn)業(yè)將客戶賭博方式的歷史模型結(jié)合起來(lái),確定客戶在光顧他們喜歡的賭場(chǎng)時(shí),會(huì)花(輸)多少錢(qián)。,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),我們年輕時(shí),用歸納形成基本概念定義。我們看到代表動(dòng)物、植物、建筑物和諸如此類(lèi)的概念實(shí)例后,我們聽(tīng)到為這些個(gè)別實(shí)例做的標(biāo)記,并選擇我們認(rèn)定的定義概念的特性(屬性)形成我們自己的分類(lèi)模型。這以后,我們使用模型幫助我們進(jìn)一步

17、來(lái)區(qū)分結(jié)構(gòu)相似的對(duì)象。這種類(lèi)型的學(xué)習(xí)稱(chēng)為基于歸納的有指導(dǎo)的概念學(xué)習(xí),或簡(jiǎn)稱(chēng)有指導(dǎo)的學(xué)習(xí)(supervised learning ),數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),,Yes,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),如果病人淋巴腫,診斷為鏈球菌感染性咽炎。如果病人沒(méi)有淋巴腫的癥狀,但發(fā)燒,診斷為感冒。如果病人沒(méi)有淋巴腫,也不

18、發(fā)燒,診斷為敏感癥。,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),(1)IF 淋巴腫 = Yes THEN 診斷 = 鏈球菌感染性咽炎(2) IF淋巴腫 = No & 發(fā)燒 = Yes THEN 診斷= 感冒 (3)IF 淋巴腫=No & 發(fā)燒 = No THEN 診斷 = 敏感癥,產(chǎn)生式規(guī)則,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),未知分類(lèi)的數(shù)據(jù)實(shí)例,數(shù)據(jù)挖掘的

19、基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),準(zhǔn)確度在檢驗(yàn)集中符合產(chǎn)生式規(guī)則條件的實(shí)例正確顯示規(guī)則所指定結(jié)果的比率。覆蓋率在檢驗(yàn)集中顯示規(guī)則所指定結(jié)果的實(shí)例符合產(chǎn)生式規(guī)則條件的比率。,產(chǎn)生式規(guī)則應(yīng)用效果的評(píng)價(jià)指標(biāo),數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),分類(lèi)學(xué)習(xí)是有指導(dǎo)的。因變量是分類(lèi)的。重點(diǎn)在于建立模型,將新的實(shí)例指派給一組定義明確的類(lèi)中的一個(gè)。,有指導(dǎo)學(xué)習(xí)的類(lèi)型,數(shù)據(jù)挖掘的基本技術(shù),,有指

20、導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),分類(lèi)任務(wù)的例子確定用于區(qū)分患過(guò)心臟病的人和從未患過(guò)心臟病的人的特征。開(kāi)發(fā)一個(gè)“成功”人士的特征文件。確定一次信用卡購(gòu)物是否為盜用。將一次購(gòu)車(chē)貸款申請(qǐng)歸類(lèi)為具備良好的或者不良的信用風(fēng)險(xiǎn)。開(kāi)發(fā)一個(gè)特征文件來(lái)區(qū)別女性與男性中風(fēng)患者。,有指導(dǎo)學(xué)習(xí)的類(lèi)型,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),估計(jì)與分類(lèi)模型相似,估計(jì)模型的目的在于確定一個(gè)未知輸出屬性的值。然而,不同于分類(lèi)模

21、型的是,對(duì)一個(gè)估計(jì)問(wèn)題,其輸出屬性值(一個(gè)或多個(gè))是數(shù)值的而不是分類(lèi)的。,有指導(dǎo)學(xué)習(xí)的類(lèi)型,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),估計(jì)任務(wù)的例子估計(jì)暴風(fēng)雨到達(dá)某個(gè)給定地點(diǎn)所需要的分鐘數(shù)。估計(jì)擁有一輛跑車(chē)的人的工資。估計(jì)信用卡已被盜的可能性。估計(jì)伽馬射線爆的長(zhǎng)度。,有指導(dǎo)學(xué)習(xí)的類(lèi)型,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),預(yù)測(cè)與分類(lèi)模型和估計(jì)模型不同,預(yù)測(cè)模型的目的在于確定未

22、來(lái)的輸出結(jié)果而不是當(dāng)前的行為。預(yù)測(cè)模型的輸出屬性(一個(gè)或多個(gè))可以是分類(lèi)的或數(shù)值型的。,有指導(dǎo)學(xué)習(xí)的類(lèi)型,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),預(yù)測(cè)任務(wù)的例子預(yù)測(cè)2002 年全美橄欖球聯(lián)盟(NFL)賽季中跑衛(wèi)的觸地總得分。確定一個(gè)信用卡客戶是否可使用其信用卡賬單提供的優(yōu)惠。預(yù)測(cè)下周道瓊斯工業(yè)指數(shù)的收盤(pán)價(jià)格。預(yù)測(cè)在未來(lái)的3個(gè)月內(nèi),哪些電話用戶最有可能改變他們的供應(yīng)商。,有指導(dǎo)學(xué)習(xí)的類(lèi)型,數(shù)據(jù)挖掘的基本技術(shù),

23、,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),心臟病病人數(shù)據(jù),數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),心臟病病人數(shù)據(jù),數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),IF 169< Maximum Heart Rate <202THEN Concept Class = Healthy規(guī)則準(zhǔn)確度:85.07%規(guī)則覆蓋率:34.55%,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí)

24、,警告1 正常狀態(tài)下測(cè)量你的最大心率,若該值偏低,你可能有患心臟病的危險(xiǎn)。,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),警告2 如果你患有心臟病,可以預(yù)期你的最大心率會(huì)降低 。,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),警告3 最大心率偏低將導(dǎo)致患心臟病 。,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),數(shù)據(jù)挖掘,可以指出屬性間的關(guān)系,但是不能弄清這些關(guān)系間是否隱含著因果關(guān)系。

25、,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),Acme信用卡公司信用卡促銷(xiāo)數(shù)據(jù)庫(kù),數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),假設(shè)Acme 信用卡公司己經(jīng)批準(zhǔn)了一個(gè)與上表所列的以前的促銷(xiāo)相似的新的壽險(xiǎn)促銷(xiāo)活動(dòng)。這個(gè)促銷(xiāo)材料將作為信用卡賬單的一部分發(fā)送給非零余額的所有信用卡持有者。我們將使用數(shù)據(jù)挖掘來(lái)幫助我們把賬單發(fā)送到選定的一組客戶手中,他們當(dāng)前沒(méi)有信用卡余額,但有可能利用促銷(xiāo)機(jī)會(huì)。我們的問(wèn)題要求有

26、指導(dǎo)數(shù)據(jù)挖掘使用壽險(xiǎn)促銷(xiāo)作為輸出屬性。我們的目的是開(kāi)發(fā)一個(gè)可能利用壽險(xiǎn)促銷(xiāo)的客戶的特征文件,該壽險(xiǎn)促銷(xiāo)是通過(guò)該客戶下一次信用卡結(jié)算表來(lái)宣傳的。,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),IF 性別=Female & 19<=Age<= 43 THEN 壽險(xiǎn)促銷(xiāo)=Yes規(guī)則準(zhǔn)確度:100.00% 規(guī)則覆蓋率:66.67%,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),IF Se

27、x=Male & Income Range=40-50KTHEN壽險(xiǎn)促銷(xiāo)=No規(guī)則準(zhǔn)確度:100.00%規(guī)則覆蓋率:50.00%,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),IF 信用卡保險(xiǎn)=YesTHEN壽險(xiǎn)促銷(xiāo)=Yes規(guī)則準(zhǔn)確度:100.00%規(guī)則覆蓋率:33.33%,數(shù)據(jù)挖掘的基本技術(shù),,有指導(dǎo)的數(shù)據(jù)挖掘技術(shù)——有指導(dǎo)的學(xué)習(xí),IF 收入=30-40K & 手表促銷(xiāo)=YesTHE

28、N壽險(xiǎn)促銷(xiāo)=Yes規(guī)則準(zhǔn)確度:100.00%規(guī)則覆蓋率:33.33%,數(shù)據(jù)挖掘的基本技術(shù),,無(wú)指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無(wú)指導(dǎo)聚類(lèi),與有指導(dǎo)學(xué)習(xí)不同,無(wú)指導(dǎo)聚類(lèi)(unsupervised clustering )為無(wú)預(yù)定義類(lèi)數(shù)據(jù)建立模型。數(shù)據(jù)實(shí)例根據(jù)聚類(lèi)系統(tǒng)定義的相似分類(lèi)機(jī)制進(jìn)行分組,在一種或多種評(píng)估技術(shù)的支持下,最終由我們確定所構(gòu)造聚類(lèi)的含義。,數(shù)據(jù)挖掘的基本技術(shù),,無(wú)指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無(wú)指導(dǎo)聚類(lèi),Acme 投資有限公司代理帳戶數(shù)

29、據(jù),數(shù)據(jù)挖掘的基本技術(shù),,無(wú)指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無(wú)指導(dǎo)聚類(lèi),有指導(dǎo)學(xué)習(xí)的典型問(wèn)題我可以開(kāi)發(fā)一個(gè)在線投資人的一般特征文件嗎?如果可以,區(qū)分在線投資者和使用經(jīng)紀(jì)人的投資者的特征是什么?有一個(gè)新客戶,他最初并沒(méi)有開(kāi)設(shè)交易保證金賬戶,我是否可以確定他在將來(lái)會(huì)開(kāi)設(shè)這樣的賬戶?我們能建立一個(gè)準(zhǔn)確預(yù)測(cè)新投資人每月交易平均數(shù)的模型嗎?女性和男性投資人有什么不同特征?,數(shù)據(jù)挖掘的基本技術(shù),,無(wú)指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無(wú)指導(dǎo)聚類(lèi),無(wú)指導(dǎo)聚類(lèi)的典型問(wèn)題

30、哪些屬性相似性決定Acme 投資公司的客戶分組?屬性值的哪些不同之處分割了客戶數(shù)據(jù)庫(kù)?,數(shù)據(jù)挖掘的基本技術(shù),,無(wú)指導(dǎo)數(shù)據(jù)挖掘技術(shù)——無(wú)指導(dǎo)聚類(lèi),通過(guò)無(wú)指導(dǎo)聚類(lèi)將客戶劃分為3類(lèi),IF 保證金帳戶=Yes & 年齡=20—29 & 收入=40-59K THEN Cluster=1準(zhǔn)確度=0.80 覆蓋率=0.50 IF 帳戶類(lèi)型 = Custodial & 愛(ài)好=Skiing & 收入=

31、 80-90KTHEN Cluster=2準(zhǔn)確度=0.95覆蓋率=0.35 IF 帳戶類(lèi)型=Joint & 交易量/月>5 & 交易方式=OnlineTHEN Cluster=3準(zhǔn)確度=0.82覆蓋率=0.65,數(shù)據(jù)挖掘的基本技術(shù),,關(guān)聯(lián)規(guī)則挖掘技術(shù),關(guān)聯(lián)規(guī)則(association rule)挖掘技術(shù)用于發(fā)現(xiàn)數(shù)據(jù)庫(kù)中屬性之間的有趣聯(lián)系。和傳統(tǒng)的產(chǎn)生式規(guī)則不同,關(guān)聯(lián)規(guī)則可以有一個(gè)或多個(gè)輸出屬

32、性。同時(shí),一個(gè)規(guī)則的輸出屬性可以是另一規(guī)則的輸入屬性。關(guān)聯(lián)規(guī)則分析有時(shí)也叫購(gòu)物籃分析,是因?yàn)樗梢哉覍こ鰸撛诘牧钊烁信d趣的所有的產(chǎn)品組合。由此,有限數(shù)目的屬性可能生成上百條關(guān)聯(lián)規(guī)則。,數(shù)據(jù)挖掘的基本技術(shù),,關(guān)聯(lián)規(guī)則挖掘技術(shù),通過(guò)apriori關(guān)聯(lián)規(guī)則挖掘算法,從Acme公司信用卡促銷(xiāo)數(shù)據(jù)庫(kù)可以得到以下關(guān)聯(lián)規(guī)則:,IF 性別=Female & 年齡=over40 & 信用卡保險(xiǎn)=NoTHEN 壽險(xiǎn)促銷(xiāo)=YesIF 性

33、別=Male & 年齡=over40 & 信用卡保險(xiǎn)=No THEN壽險(xiǎn)促銷(xiāo)=NoIF 性別=Female & Age= over40THEN 信用卡保險(xiǎn)=No & 壽險(xiǎn)促銷(xiāo)=Yes,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹(shù)的算法,算法步驟,A.假設(shè)T為訓(xùn)練實(shí)例集B.選擇一個(gè)最能區(qū)別T中實(shí)例的屬性(屬性的優(yōu)度值最大)C.創(chuàng)建一個(gè)樹(shù)結(jié)點(diǎn),它的值為所選擇的屬性。創(chuàng)建該結(jié)點(diǎn)的子鏈,每個(gè)子

34、鏈代表所選屬性的一個(gè)唯一值。D.對(duì)C所創(chuàng)建的每個(gè)子類(lèi):a.如果子類(lèi)中的實(shí)例滿足預(yù)定義的標(biāo)準(zhǔn)(如達(dá)到最小訓(xùn)練集分類(lèi)準(zhǔn)確度),或者,沿這條路徑的剩余可選的屬性集為空,為沿此決策路徑的新實(shí)例指定類(lèi)別。b.如果子類(lèi)不滿足預(yù)定義的標(biāo)準(zhǔn)并且至少有一個(gè)屬性能進(jìn)一步細(xì)分樹(shù)的路徑,設(shè)T為當(dāng)前子類(lèi)實(shí)例集合,返回步驟B,,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹(shù)的算法,屬性優(yōu)度值,按某一屬性對(duì)訓(xùn)練實(shí)例集進(jìn)行分類(lèi),分類(lèi)的準(zhǔn)確度除以分支的個(gè)數(shù)

35、,即為該屬性的優(yōu)度值。如:按屬性A對(duì)訓(xùn)練實(shí)例集進(jìn)行分類(lèi),可以得到n個(gè)子類(lèi),而分類(lèi)的準(zhǔn)確度(正確分類(lèi)的實(shí)例數(shù)/實(shí)例總數(shù))為p, 則屬性的優(yōu)度值為 p/n,,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹(shù)的算法,,Acme信用卡公司信用卡促銷(xiāo)數(shù)據(jù)庫(kù),數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹(shù)的算法,以收入范圍作為分類(lèi)屬性,,,分類(lèi)準(zhǔn)確度: 11/15=0.73屬性優(yōu)度 0.73/4=0.183,數(shù)據(jù)挖掘的基

36、本算法,,C4.5 —— 建立決策樹(shù)的算法,以信用卡保險(xiǎn)作為分類(lèi)屬性,,,分類(lèi)準(zhǔn)確度: 9/15=0.6 屬性優(yōu)度 0.6/2=0.3,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹(shù)的算法,以性別作為分類(lèi)屬性,,,分類(lèi)準(zhǔn)確度: 10/15=0.67 屬性優(yōu)度 0.67/2=0.33,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹(shù)的算法,以年齡作為分類(lèi)屬性,,,年齡是數(shù)值屬性,須先對(duì)其進(jìn)行排序

37、,然后作二元?jiǎng)澐?19 27 29 35 38 39 40 41 42 43 43 43 45 55 55 Y N Y Y Y Y Y Y N Y Y N N N N 年齡19,19 27 29 35 38 39 40 41 42 43 43 43 45 55 55 Y N Y Y Y Y Y Y N Y Y N N

38、 N N 年齡42,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹(shù)的算法,以年齡作為分類(lèi)屬性,,,分類(lèi)準(zhǔn)確度: 12/15=0.8 屬性優(yōu)度 0.8/2=0.4,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹(shù)的算法,年齡屬性的優(yōu)度值最大,以此形成第1個(gè)結(jié)點(diǎn),,,數(shù)據(jù)挖掘的基本算法,,C4.5 —— 建立決策樹(shù)的算法,年齡<=43的分支以性別屬形成第2個(gè)結(jié)點(diǎn),,,數(shù)據(jù)挖掘的基本算法,,C4.5 ——

39、建立決策樹(shù)的算法,性別=male的分支以信用卡保險(xiǎn)屬形成第3個(gè)結(jié)點(diǎn),,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,假設(shè)我們想確定顧客對(duì)下列4 種食品店食品的購(gòu)買(mǎi)傾向,是否存在有趣的聯(lián)系:牛奶奶酪面包雞蛋可能包括下列的關(guān)聯(lián):如果顧客購(gòu)買(mǎi)牛奶,那么他們也會(huì)購(gòu)買(mǎi)面包。如果顧客購(gòu)買(mǎi)面包,那么他們也會(huì)購(gòu)買(mǎi)牛奶。如果顧客購(gòu)買(mǎi)牛奶和雞蛋,那么他們也會(huì)購(gòu)買(mǎi)奶酪和面包。如果顧客購(gòu)買(mǎi)牛奶、奶酪和雞蛋,

40、那么他們也會(huì)購(gòu)買(mǎi)面包。,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,關(guān)聯(lián)規(guī)則的置信度:關(guān)聯(lián)規(guī)則在在滿足前提的情況下,其結(jié)論可能出現(xiàn)的概率。,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,關(guān)聯(lián)規(guī)則:如果顧客購(gòu)買(mǎi)牛奶,那么他們也會(huì)購(gòu)買(mǎi)面包。如果顧客購(gòu)買(mǎi)面包,那么他們也會(huì)購(gòu)買(mǎi)牛奶。是不是一樣呢?,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,如果有10000次顧客交易里購(gòu)買(mǎi)

41、了牛奶,而且其中的5000個(gè)也購(gòu)買(mǎi)了面包,則購(gòu)買(mǎi)牛奶的情況下,購(gòu)買(mǎi)面包的置信度為5000/10000=50% 假設(shè)有20000 次顧客交易里購(gòu)買(mǎi)了面包,其中5000個(gè)也購(gòu)買(mǎi)了牛奶。在購(gòu)買(mǎi)面包的情況下,購(gòu)買(mǎi)牛奶的置信度是25%。,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,關(guān)聯(lián)規(guī)則的支持度:包含關(guān)聯(lián)規(guī)則中出現(xiàn)的屬性值的交易占所有交易的百分比。,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,對(duì)

42、于關(guān)聯(lián)規(guī)則:如果顧客購(gòu)買(mǎi)牛奶,那么他們也會(huì)購(gòu)買(mǎi)面包。如果在1000次交易中,如果有300次交易即購(gòu)買(mǎi)了牛奶又購(gòu)買(mǎi)了面包,則上述規(guī)則的支持度是30%,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,算法步驟:按給定的最小支持度由數(shù)據(jù)庫(kù)生成條目集。按給定的最小置信度由條目集創(chuàng)建一組關(guān)聯(lián)規(guī)則。,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,Acme信用卡公司信用卡促銷(xiāo)數(shù)據(jù)庫(kù),數(shù)據(jù)挖掘的基本算法

43、,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,假設(shè)最小支持度為25%(即每一條規(guī)則至少要有15*0.25≈4個(gè)實(shí)例出現(xiàn)規(guī)則中的屬性)假設(shè)最小置信度為80%,,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,生成單項(xiàng)集合,雜志促銷(xiāo)=Yes條目數(shù): 7(加入),數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,生成單項(xiàng)集合,雜志促銷(xiāo)=No條目數(shù): 3(放棄),數(shù)據(jù)挖掘的基本算法,,aprio

44、ri —— 關(guān)聯(lián)規(guī)則挖掘算法,,單項(xiàng)集合,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,生成雙項(xiàng)集合,雜志促銷(xiāo)=Yes &手表促銷(xiāo)=Yes條目數(shù): 3(放棄),數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,生成雙項(xiàng)集合,雜志促銷(xiāo)=Yes &手表促銷(xiāo)=No條目數(shù): 4(加入),數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,雙項(xiàng)集合,數(shù)據(jù)挖掘的基本算法

45、,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,三項(xiàng)集合,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,由雙項(xiàng)與三項(xiàng)集合表生成關(guān)聯(lián)規(guī)則,對(duì)所有不能滿足最小置信度的規(guī)則予以丟棄。,數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,由雙項(xiàng)集合 雜志促銷(xiāo)=Yes & 壽險(xiǎn)促銷(xiāo)=Yes 可生成關(guān)聯(lián)規(guī)則:IF雜志促銷(xiāo)=Yes THEN壽險(xiǎn)促銷(xiāo)=Yes(5/7)置信度=5/7=0.71<0.

46、8(放棄規(guī)則),數(shù)據(jù)挖掘的基本算法,,apriori —— 關(guān)聯(lián)規(guī)則挖掘算法,,由三項(xiàng)集合 手表促銷(xiāo)=No & 壽險(xiǎn)促銷(xiāo)=No & 信用卡保險(xiǎn)=No 可以生成關(guān)聯(lián)規(guī)則可以包括:IF 手表促銷(xiāo)=No & 壽險(xiǎn)促銷(xiāo)=No THEN 信用卡保險(xiǎn)=No (4/4 保留)IF手表促銷(xiāo)=No THEN 壽險(xiǎn)促銷(xiāo)=No & 信用卡保險(xiǎn)=No(4/6 放棄)IF 信用卡保險(xiǎn)=NoTHEN 手表促

47、銷(xiāo)=No & 壽險(xiǎn)促銷(xiāo)=No(4/8 放棄),數(shù)據(jù)挖掘的基本算法,,其它數(shù)據(jù)挖掘算法,,K-平均值算法(一種無(wú)指導(dǎo)聚類(lèi)算法)遺傳算法(可用于有指導(dǎo)學(xué)習(xí)的算法)神經(jīng)網(wǎng)絡(luò)算法(可用于有指導(dǎo)學(xué)習(xí)的算法),iDA——基于Excel的數(shù)據(jù)挖掘軟件工具,,iDA簡(jiǎn)介,,iDA是上個(gè)基于Excel的數(shù)據(jù)挖掘工具,主要包括兩個(gè)工具:,ESX:是一個(gè)基于樣本的數(shù)據(jù)挖掘工具,即可用于的指導(dǎo)的學(xué)習(xí),也可以用于無(wú)指導(dǎo)的聚類(lèi)。Neural N

48、etwork: 基于神經(jīng)網(wǎng)絡(luò)算法的數(shù)據(jù)挖掘工具,用于有指導(dǎo)學(xué)習(xí)的反向傳播神經(jīng)網(wǎng)絡(luò)和用于無(wú)指導(dǎo)聚類(lèi)的自組織特征映射。,iDA——基于Excel的數(shù)據(jù)挖掘軟件工具,,iDA安裝,,修改Excel宏安全級(jí)別到中或低安裝Java運(yùn)行庫(kù)安裝iDA,iDA——基于Excel的數(shù)據(jù)挖掘軟件工具,,iDAV 格式的數(shù)據(jù)挖掘,,第1行的各列是屬性名第2 行的每一列為C或R 。如果對(duì)應(yīng)的屬性數(shù)據(jù)類(lèi)型為分類(lèi)的(標(biāo)稱(chēng)),則在第2 行的該列上放置一

49、個(gè)C。如果輸入的數(shù)據(jù)是實(shí)際的值(數(shù)值型的),則在第2 行的該列土放置一個(gè)R 。第3 行說(shuō)明了有關(guān)ESX 屬性用途的信息。I:輸入的屬性;U:不使用的屬性;D:不用于分類(lèi)或聚類(lèi)的屬性,但屬性值匯總信息顯示在所有的輸出報(bào)表里;O:輸出的屬性從第4行開(kāi)始,輸入實(shí)際值,每個(gè)新行包括一個(gè)數(shù)據(jù)實(shí)例。,iDA——基于Excel的數(shù)據(jù)挖掘軟件工具,,用于無(wú)指導(dǎo)聚類(lèi)的5 步法,,將要挖掘的數(shù)據(jù)輸入到個(gè)新的Excel 文件中。執(zhí)行一個(gè)數(shù)據(jù)挖掘會(huì)話

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論