

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、,1,數(shù)據(jù)挖掘原理與SPSS Clementine應(yīng)用寶典 元昌安 主編 鄧 松 李文敬 劉海濤 編著 電子工業(yè)出版社,雙擊添加主標(biāo)題,,,,,,數(shù)據(jù)挖掘的體系結(jié)構(gòu)與模型,,,,數(shù)據(jù)挖掘的體系結(jié)構(gòu)數(shù)據(jù)挖掘的過(guò)程模型Fayyad模型CRISP-DM模型,,3,3.1 數(shù)據(jù)挖掘的體系結(jié)構(gòu),數(shù)據(jù)挖掘系統(tǒng)由各類數(shù)據(jù)庫(kù)、挖掘前處理模塊、挖
2、掘操作模塊、模式評(píng)估模塊、知識(shí)輸出模塊組成,這些模塊的有機(jī)組成就構(gòu)成了數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)。,數(shù)據(jù)挖掘系統(tǒng)的體系結(jié)構(gòu)圖,,4,3.1 數(shù)據(jù)挖掘的體系結(jié)構(gòu),數(shù)據(jù)庫(kù)管理模塊,負(fù)責(zé)對(duì)系統(tǒng)內(nèi)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、挖掘知識(shí)庫(kù)的維護(hù)與管理。這些數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)是對(duì)外部數(shù)據(jù)庫(kù)進(jìn)行轉(zhuǎn)換、清理、凈化得到,它是數(shù)據(jù)挖掘的基礎(chǔ)。挖掘前處理模塊,對(duì)所收集到的數(shù)據(jù)進(jìn)行清理、集成、選擇、轉(zhuǎn)換,生成數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)挖掘庫(kù)。其中:清理,主要清除噪音;集成,將多種數(shù)據(jù)源組
3、合在一起;選擇,選擇與問(wèn)題相關(guān)的數(shù)據(jù);轉(zhuǎn)換,將選擇數(shù)據(jù)轉(zhuǎn)換成可挖掘形式。,,5,3.1 數(shù)據(jù)挖掘的體系結(jié)構(gòu),模式評(píng)估模塊,對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行評(píng)估。由于所挖掘出的模式可能有許多,需要將用戶的興趣度與這些模式進(jìn)行分析對(duì)比,評(píng)估模式價(jià)值,分析不足原因,如果挖掘出的模式與用戶興趣度相差大,需返回相應(yīng)的過(guò)程(如,挖掘前處理或挖掘操作)重新執(zhí)行。知識(shí)輸出模塊,完成對(duì)數(shù)據(jù)挖掘出的模式進(jìn)行翻譯、解釋,以人們易于理解的方式提供給真正渴望知識(shí)的決策者使用
4、。,,6,3.1 數(shù)據(jù)挖掘的體系結(jié)構(gòu),挖掘操作模塊,利用各種數(shù)據(jù)挖掘算法針對(duì)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘庫(kù),并借助挖掘知識(shí)庫(kù)中的規(guī)則、方法、經(jīng)驗(yàn)和事實(shí)數(shù)據(jù)等,挖掘和發(fā)現(xiàn)知識(shí)。。,,7,3.2 數(shù)據(jù)挖掘的過(guò)程模型,Fayyad數(shù)據(jù)挖掘模型將數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)看作是一個(gè)多階段的處理過(guò)程,它從數(shù)據(jù)集中識(shí)別出以模式來(lái)表示的知識(shí),在整個(gè)知識(shí)發(fā)現(xiàn)的過(guò)程中包括很多處理步驟,各步驟之間相互影響,反復(fù)調(diào)整,形成一種螺旋式的上升過(guò)程。,Fayyad數(shù)據(jù)挖掘
5、過(guò)程模型,,8,3.2.1 Fayyad模型,Fayyad處理過(guò)程共分為9個(gè)處理階段,分別是 :數(shù)據(jù)準(zhǔn)備:了解KDD相關(guān)領(lǐng)域的有關(guān)情況,熟悉有關(guān)的背景知識(shí),并弄清楚用戶的要求。數(shù)據(jù)選擇:根據(jù)用戶的要求從數(shù)據(jù)庫(kù)中提取與KDD相關(guān)的數(shù)據(jù),KDD將主要從這些數(shù)據(jù)中進(jìn)行知識(shí)提取,在此過(guò)程中,會(huì)利用一些數(shù)據(jù)庫(kù)操作對(duì)數(shù)據(jù)進(jìn)行處理。,,9,3.2.1 Fayyad模型,數(shù)據(jù)清洗和預(yù)處理:對(duì)數(shù)據(jù)進(jìn)行再加工,檢查數(shù)據(jù)的完整性及數(shù)據(jù)的一致性,對(duì)
6、其中的噪音數(shù)據(jù)進(jìn)行處理,對(duì)丟失的數(shù)據(jù)可以利用統(tǒng)計(jì)方法進(jìn)行填補(bǔ)。數(shù)據(jù)降維/轉(zhuǎn)換:對(duì)經(jīng)過(guò)預(yù)處理的數(shù)據(jù),根據(jù)知識(shí)發(fā)現(xiàn)的任務(wù)對(duì)數(shù)據(jù)進(jìn)行再處理,主要通過(guò)投影或數(shù)據(jù)庫(kù)中的其它操作減少數(shù)據(jù)量。確定KDD的目標(biāo) 根據(jù)用戶的要求:確定KDD是發(fā)現(xiàn)何種類型的知識(shí),因?yàn)閷?duì)KDD的不同要求會(huì)在具體的知識(shí)發(fā)現(xiàn)過(guò)程中采用不同的知識(shí)發(fā)現(xiàn)算法。,,10,3.2.1 Fayyad模型,確定知識(shí)發(fā)現(xiàn)算法: 根據(jù)階段5所確定的任務(wù),選擇合適的知識(shí)發(fā)現(xiàn)算法,這包括選
7、取合適的模型和參數(shù),并使得知識(shí)發(fā)現(xiàn)算法與整個(gè)KDD的評(píng)判標(biāo)準(zhǔn)相一致。數(shù)據(jù)挖掘(Data Mining) :運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取出用戶所感興趣的知識(shí),并以一定的方式表示出來(lái)。模式解釋: 對(duì)發(fā)現(xiàn)的模式(知識(shí))進(jìn)行解釋,在此過(guò)程中,為了取得更為有效的知識(shí)。,,11,3.2.1 Fayyad模型,知識(shí)評(píng)價(jià): 將發(fā)現(xiàn)的知識(shí)以用戶能了解的方式呈現(xiàn)給用戶。這期間也包含對(duì)知識(shí)的一致性檢查,以確信本次發(fā)現(xiàn)的知識(shí)不與以前發(fā)現(xiàn)的知識(shí)
8、相抵觸。,,12,3.2.1 Fayyad模型,Fayyad過(guò)程模型是一個(gè)偏技術(shù)的模型,該模型在實(shí)際應(yīng)用中存在以下兩個(gè)問(wèn)題:為什么選擇這些數(shù)據(jù)?Fayyad過(guò)程模型忽略了具體業(yè)務(wù)問(wèn)題的確定。這也是確定選擇哪些數(shù)據(jù)的關(guān)鍵所在。模型怎樣使用?數(shù)據(jù)挖掘是分析型環(huán)境中的一門技術(shù),如果數(shù)據(jù)挖掘是一種數(shù)據(jù)分析技術(shù),那么數(shù)據(jù)挖掘應(yīng)該在分析型環(huán)境中使用。但是,挖掘出的模型需要返回到操作型環(huán)境中進(jìn)行應(yīng)用。因此,需要構(gòu)成一個(gè)從操作型環(huán)境到分析型環(huán)境再
9、到操作型環(huán)境的封閉的信息流。,,13,3.2.2 CRISP-DM模型,CRISP-DM(Cross-Industry Standard Process for Data Mining,跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)注重?cái)?shù)據(jù)挖掘技術(shù)的應(yīng)用,解決了Fayyad模型存在的兩個(gè)問(wèn)題。 CRISP-DM過(guò)程模型從商業(yè)的角度給出對(duì)數(shù)據(jù)挖掘方法的理解。目前數(shù)據(jù)挖掘系統(tǒng)的研制和開發(fā)大都遵循CRISP-DM標(biāo)準(zhǔn),將典型的挖掘和模型的部
10、署緊密結(jié)合。,,14,3.2.2 CRISP-DM模型,CRISP-DM模型過(guò)程的基本步驟包括:業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評(píng)價(jià)、模型實(shí)施。,CRISP-DM數(shù)據(jù)挖掘過(guò)程模型,,15,3.2.2 CRISP-DM模型,CRISP-DM模型的各個(gè)階段任務(wù)。 業(yè)務(wù)理解 (Business Understanding) 最初的階段集中在理解項(xiàng)目目標(biāo)和從業(yè)務(wù)的角度理解需求,同時(shí)將這個(gè)知識(shí)轉(zhuǎn)化為數(shù)據(jù)
11、挖掘問(wèn)題的定義和完成目標(biāo)的初步計(jì)劃。,,16,3.2.2 CRISP-DM模型,數(shù)據(jù)理解 (Data Understanding) 數(shù)據(jù)理解階段從初始的數(shù)據(jù)收集開始,通過(guò)一些活動(dòng)的處理,目的是熟悉數(shù)據(jù),識(shí)別數(shù)據(jù)的質(zhì)量問(wèn)題,首次發(fā)現(xiàn)數(shù)據(jù)的內(nèi)部屬性,或是探測(cè)引起興趣的子集去形成隱含信息的假設(shè)。,,17,3.2.2 CRISP-DM模型,數(shù)據(jù)準(zhǔn)備 (Data Preparation) 數(shù)據(jù)準(zhǔn)備階段包
12、括從未處理數(shù)據(jù)中構(gòu)造最終數(shù)據(jù)集的所有活動(dòng)。這些數(shù)據(jù)將是模型工具的輸入值。這個(gè)階段的任務(wù)有一個(gè)能執(zhí)行多次,沒有任何規(guī)定的順序。任務(wù)包括表、記錄和屬性的選擇,以及為模型工具轉(zhuǎn)換和清洗數(shù)據(jù)。,,18,3.2.2 CRISP-DM模型,建立模型(Modeling) 選擇和應(yīng)用不同的模型技術(shù),模型參數(shù)被調(diào)整到最佳的數(shù)值。一般,有些技術(shù)可以解決一類相同的數(shù)據(jù)挖掘問(wèn)題。有些技術(shù)在數(shù)據(jù)形成上有特殊要求,因此需要經(jīng)常跳回到數(shù)據(jù)準(zhǔn)備階段。,,19
13、,3.2.2 CRISP-DM模型,評(píng)價(jià)(Evaluation) 已經(jīng)從數(shù)據(jù)分析的角度建立了高質(zhì)量顯示的模型。在開始最后部署模型之前,重要的事情是徹底地評(píng)估模型,檢查構(gòu)造模型的步驟,確保模型可以完成業(yè)務(wù)目標(biāo)。這個(gè)階段的關(guān)鍵目的是確定是否有重要業(yè)務(wù)問(wèn)題沒有被充分的考慮。在這個(gè)階段結(jié)束后,一個(gè)數(shù)據(jù)挖掘結(jié)果使用的決定必須達(dá)成。,,20,3.2.2 CRISP-DM模型,實(shí)施 (Deployment) 通常,模
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 體系結(jié)構(gòu)第13章
- 數(shù)據(jù)挖掘算法庫(kù)體系結(jié)構(gòu)的研究.pdf
- arm體系結(jié)構(gòu)與編程第2版第5章
- 基于網(wǎng)格的分布式數(shù)據(jù)挖掘體系結(jié)構(gòu)研究.pdf
- 基于網(wǎng)格的數(shù)據(jù)挖掘平臺(tái)體系結(jié)構(gòu)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 一種面向數(shù)據(jù)挖掘的并行體系結(jié)構(gòu)研究.pdf
- 第3章_數(shù)據(jù)結(jié)構(gòu)
- 數(shù)據(jù)挖掘系統(tǒng)體系結(jié)構(gòu)的研究及數(shù)據(jù)預(yù)處理算法的改進(jìn).pdf
- 第6章數(shù)據(jù)挖掘
- 進(jìn)行測(cè)驗(yàn)-第2章-網(wǎng)絡(luò)體系結(jié)構(gòu)與網(wǎng)絡(luò)協(xié)議測(cè)試
- 第3章 數(shù)據(jù)與數(shù)據(jù)運(yùn)算
- 面向商業(yè)智能的數(shù)據(jù)挖掘算法和多智能體系統(tǒng)的體系結(jié)構(gòu)以及優(yōu)化.pdf
- 模型驅(qū)動(dòng)體系結(jié)構(gòu)研究.pdf
- 數(shù)據(jù)挖掘課件第3章關(guān)聯(lián)規(guī)則挖掘理論和算法(new)
- 軟件體系結(jié)構(gòu)的層次描述模型.pdf
- 軟件體系結(jié)構(gòu)四層模型的研究與實(shí)現(xiàn).pdf
- 服務(wù)模型驅(qū)動(dòng)的體系結(jié)構(gòu)與服務(wù)構(gòu)件重用技術(shù)
- 第5章數(shù)據(jù)挖掘的實(shí)施過(guò)程
- 模型驅(qū)動(dòng)體系結(jié)構(gòu)的應(yīng)用研究.pdf
- 面向體系結(jié)構(gòu)的構(gòu)件接口模型研究.pdf
評(píng)論
0/150
提交評(píng)論