

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、第3章 數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù),2,第3章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù),什么是數(shù)據(jù)倉(cāng)庫(kù)? 多維數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)數(shù)據(jù)立方體的進(jìn)一步發(fā)展從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘,3,什么是數(shù)據(jù)倉(cāng)庫(kù)?,有不同的方法定義, 但不是嚴(yán)格的.是一個(gè)決策支持?jǐn)?shù)據(jù)庫(kù), 它與組織機(jī)構(gòu)的操作數(shù)據(jù)庫(kù)分別維護(hù)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)允許將各種應(yīng)用系統(tǒng)集成在一起, 為統(tǒng)一的歷史數(shù)據(jù)分析提供堅(jiān)實(shí)的平臺(tái), 支持信息處理.W. H. Inmon的定
2、義: 數(shù)據(jù)倉(cāng)庫(kù)是 面向主題的(subject-oriented), 集成的(integrated), 時(shí)變的(time-variant), 和非易失的( nonvolatile) 數(shù)據(jù)集合, 支持管理決策過(guò)程建立數(shù)據(jù)倉(cāng)庫(kù)(Data warehousing):構(gòu)造和使用數(shù)據(jù)倉(cāng)庫(kù)的過(guò)程,4,數(shù)據(jù)倉(cāng)庫(kù)—面向主題的,圍繞重要的主題( 如顧客、產(chǎn)品、銷售等) 組織.關(guān)注決策制定者的數(shù)據(jù)建模與分析, 而不是日常的操作和事務(wù)處理.數(shù)據(jù)倉(cāng)庫(kù)排除
3、對(duì)于決策過(guò)程無(wú)用的數(shù)據(jù), 提供特定主題的簡(jiǎn)明視圖.,5,數(shù)據(jù)倉(cāng)庫(kù)— 集成的,通過(guò)將多個(gè)異種的數(shù)據(jù)源集成在一起, 而構(gòu)造比如,關(guān)系數(shù)據(jù)庫(kù), 一般文件, 聯(lián)機(jī)事務(wù)記錄使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù).確保命名約定, 編碼結(jié)構(gòu), 屬性度量等的一致性例如, 飯店價(jià)格: 貨幣種類, 稅, 是否含早餐, 等.當(dāng)數(shù)據(jù)裝入數(shù)據(jù)倉(cāng)庫(kù)時(shí), 數(shù)據(jù)將被轉(zhuǎn)換.,6,數(shù)據(jù)倉(cāng)庫(kù)— 時(shí)變的,數(shù)據(jù)倉(cāng)庫(kù)的時(shí)間跨度顯著地比操作數(shù)據(jù)庫(kù)長(zhǎng).操作數(shù)據(jù)庫(kù)數(shù)據(jù): 當(dāng)前值數(shù)據(jù).
4、數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù): 從歷史的角度提供數(shù)據(jù) (例如, 過(guò)去 5-10 年)數(shù)據(jù)倉(cāng)庫(kù)中的每個(gè)鍵結(jié)構(gòu)顯式或隱式地包含時(shí)間元素,但是, 操作數(shù)據(jù)的鍵可能包含, 也可能不包含“時(shí)間元素”.,7,數(shù)據(jù)倉(cāng)庫(kù)— 非易失的,從操作環(huán)境轉(zhuǎn)換過(guò)來(lái)的數(shù)據(jù)物理地分離存放.數(shù)據(jù)的更新不在數(shù)據(jù)倉(cāng)庫(kù)環(huán)境中出現(xiàn).不需要事務(wù)處理, 恢復(fù), 和并發(fā)控制機(jī)制只需要兩種數(shù)據(jù)存取操作: 數(shù)據(jù)的初始化裝入 和 數(shù)據(jù)訪問(wèn).,8,數(shù)據(jù)倉(cāng)庫(kù)和異種DBMS,傳統(tǒng)的異種數(shù)據(jù)庫(kù)集成
5、: 在異種數(shù)據(jù)庫(kù)上建立一個(gè)包裝程序(wrappers)或中介程序(/mediators)查詢驅(qū)動(dòng)的方法當(dāng)查詢提交給一個(gè)站點(diǎn)時(shí), 使用元數(shù)據(jù)詞典將查詢轉(zhuǎn)換成所涉及的異構(gòu)站點(diǎn)上的相應(yīng)查詢, 查詢的結(jié)果被集成為一個(gè)全局回答的集合 需要:復(fù)雜的信息過(guò)濾, 對(duì)資源的競(jìng)爭(zhēng)數(shù)據(jù)倉(cāng)庫(kù): 更新驅(qū)動(dòng)的, 高性能來(lái)自異種信息源的數(shù)據(jù)被預(yù)先集成并存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中, 直接用于查詢和分析,9,數(shù)據(jù)倉(cāng)庫(kù)VS.操作數(shù)據(jù)庫(kù),OLTP (on-line tra
6、nsaction processing, 聯(lián)機(jī)事務(wù)處理)傳統(tǒng)關(guān)系 DBMS的主要任務(wù)涵蓋日常操作: 購(gòu)買, 庫(kù)存, 銀行, 制造, 工資單, 注冊(cè), 記帳, 等.OLAP (on-line analytical processing, 聯(lián)機(jī)分析處理)數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的主要任務(wù)數(shù)據(jù)分析和決策制定上提供服務(wù)不同的特點(diǎn) (OLTP vs. OLAP):用戶和系統(tǒng)的面向性: 顧客 vs. 市場(chǎng)數(shù)據(jù)內(nèi)容: 當(dāng)前的, 細(xì)節(jié)的 vs. 歷
7、史的, 合并的數(shù)據(jù)庫(kù)設(shè)計(jì): ER + 應(yīng)用 vs. 星型 + 主題視圖: 當(dāng)前的, 局部的 vs. 進(jìn)化的, 集成的訪問(wèn)模式: 更新 vs. 只讀的, 但是復(fù)雜的查詢,10,OLTP vs. OLAP,,11,為什么建立分離的數(shù)據(jù)倉(cāng)庫(kù)?,為了兩個(gè)系統(tǒng)的高性能DBMS— 目的是 OLTP: 存取方法, 索引, 并發(fā)控制, 恢復(fù)數(shù)據(jù)倉(cāng)庫(kù)—目的是 OLAP: 復(fù)雜的 OLAP 查詢, 多維視圖, 統(tǒng)一.不同的功能和不同的數(shù)據(jù):
8、缺少數(shù)據(jù): 決策支持需要?dú)v史數(shù)據(jù), 通常操作數(shù)據(jù)庫(kù)并不維護(hù)這些數(shù)據(jù)數(shù)據(jù)統(tǒng)一: 決策支持需要將來(lái)自異種數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一 (聚集, 匯總)數(shù)據(jù)質(zhì)量: 不同的數(shù)據(jù)源通常使用不同的數(shù)據(jù)表示, 編碼, 和應(yīng)當(dāng)遵循的格式,12,第2章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù),什么是數(shù)據(jù)倉(cāng)庫(kù)? 多維數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進(jìn)一步發(fā)展,13,由表和電子數(shù)據(jù)表到數(shù)據(jù)方,數(shù)據(jù)倉(cāng)庫(kù)基于 多維數(shù)據(jù)模型 ,
9、 多維數(shù)據(jù)模型將數(shù)據(jù)視為數(shù)據(jù)方(data cube)形式數(shù)據(jù)方( 如sales) 可以將數(shù)據(jù)建模, 并允許由多個(gè)維進(jìn)行觀察維表, 如 item (item_name, brand, type), 或 time(day, week, month, quarter, year) 事實(shí)表包含度量 (如 dollars_sold) 和每個(gè)相關(guān)維表的鍵在數(shù)據(jù)倉(cāng)庫(kù)的文獻(xiàn)中, 一個(gè) n-D 基本立方體 稱作基本方體(base cuboid).
10、 最頂部的 0-D方體存放最高層的匯總, 稱作頂點(diǎn)方體( apex cuboid). 方體的格形成數(shù)據(jù)方.,14,立方體: 方體的格,,,,,,,,,,,,,,,,,all,time,item,location,supplier,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,time,item,time,location,time,supplier,item,location,item,supplier,locat
11、ion,supplier,time,item,location,time,item,supplier,time,location,supplier,item,location,supplier,time, item, location, supplier,0-D(頂點(diǎn)) 方體,1-D 方體,2-D方體,3-D方體,4-D(基本)方體,15,數(shù)據(jù)倉(cāng)庫(kù)的概念建模,數(shù)據(jù)倉(cāng)庫(kù)建模: 多維模型,涉及維和度量星型模式: 事實(shí)表在中央, 連接一組維
12、表雪花模式 : 星型模式的精煉, 其中一些維分層結(jié)構(gòu)被規(guī)范化成一組較小的維表, 形成類似于雪花的形狀,減少冗余事實(shí)星座: 多個(gè)事實(shí)表共享維表, 可以看作星星的集合, 因此稱作星系模式, 或事實(shí)星座,16,星型模式的例子,,,事實(shí)表,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,,avg_sales,Measures,,,,,,,,17
13、,雪花模式的例子,,Sales Fact Table,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollars_sold,,avg_sales,Measures,,,,,,,,,,18,事實(shí)星座的例子,,Sales Fact Table,,time_key,item_key,,branch_key,,location_key,,units_sold,,dollar
14、s_sold,,avg_sales,Measures,,,,,,,,,Shipping Fact Table,,time_key,item_key,,shipper_key,,from_location,,to_location,,dollars_cost,,units_shipped,,,,,,,,,,,19,數(shù)據(jù)挖掘查詢語(yǔ)言 DMQL: 語(yǔ)言原語(yǔ),立方體定義 (事實(shí)表)define cube []: 維定義 ( 維表)d
15、efine dimension as ()特殊情況 (共享維表)第一次, 如 “cube definition”define dimension as in cube ,20,用DMQL定義星型模式,define cube sales_star [time, item, branch, location]:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales
16、_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier_type)define dimension branch as (branc
17、h_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country),21,用DMQL定義雪花模式,define cube sales_snowflake [time, item, branch, location]:dollars_sold = sum(sales_i
18、n_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension item as (item_key, item_name, brand, type, supplier(suppli
19、er_key, supplier_type))define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city(city_key, province_or_state, country)),22,用DMQL定義事實(shí)星座,define cube sales [
20、time, item, branch, location]:dollars_sold = sum(sales_in_dollars), avg_sales = avg(sales_in_dollars), units_sold = count(*)define dimension time as (time_key, day, day_of_week, month, quarter, year)define dimension i
21、tem as (item_key, item_name, brand, type, supplier_type)define dimension branch as (branch_key, branch_name, branch_type)define dimension location as (location_key, street, city, province_or_state, country)define cube
22、 shipping [time, item, shipper, from_location, to_location]:dollar_cost = sum(cost_in_dollars), unit_shipped = count(*)define dimension time as time in cube salesdefine dimension item as item in cube salesdefine dime
23、nsion shipper as (shipper_key, shipper_name, location as location in cube sales, shipper_type)define dimension from_location as location in cube salesdefine dimension to_location as location in cube sales,23,三類度量(數(shù)值函數(shù))
24、,分布的(distributive): 將數(shù)據(jù)劃分為n個(gè)集合, 函數(shù)在每一部分上的計(jì)算得到一個(gè)聚集值. 如果將函數(shù)用于n個(gè)聚集值得到的結(jié)果, 與將函數(shù)用于所有數(shù)據(jù)得到的結(jié)果一樣, 則該函數(shù)可以用分布方式計(jì)算.例, count(), sum(), min(), max().代數(shù)的(algebraic):如果它能夠由一個(gè)具有M(其中, M是一個(gè)整數(shù)界)個(gè)參數(shù)的代數(shù)函數(shù)計(jì)算, 而每個(gè)參數(shù)都可以用一個(gè)分布聚集函數(shù)求得 .例, av
25、g(), min_N(), standard_deviation().整體的(holistic):如果描述它的子聚集所需的存儲(chǔ)沒(méi)有一個(gè)常數(shù)界 . 例, median(), mode(), rank().,24,一個(gè)概念分層: 維Location,all,Europe,North_America,Mexico,Canada,Spain,Germany,Vancouver,M. Wind,L. Chan,...,...,...,..
26、.,...,...,,,,,,,,,,,,,,,,,all,region,office,,,,,country,,,,,Toronto,Frankfurt,city,25,數(shù)據(jù)倉(cāng)庫(kù)和分層結(jié)構(gòu)視圖,26,多維數(shù)據(jù),多維模型中,數(shù)據(jù)組織成多維,每維包含由概念分層定義的多個(gè)抽象層銷售量作為 product, month, 和 region的函數(shù),,,,,,,,,,,,,,,,,,,,,,,,,,,,,,Product,Region,Mont
27、h,,,維: Product, Location, Time的分層結(jié)構(gòu),Industry Region YearCategory Country QuarterProduct City Month Week Office Day,,,,,,,,,,,27,一個(gè)數(shù)據(jù)方的樣本,,TV 在 U.S.A.的總銷售,28,對(duì)應(yīng)于數(shù)據(jù)
28、方的方體,,,,,,,,,all,,,,,,,,,,,,,product,date,country,product,date,product,country,date, country,product, date, country,0-D(頂點(diǎn)) 方體,1-D方體,2-D方體,3-D(基本)方體,29,瀏覽數(shù)據(jù)方,可視化OLAP 的能力交互式操作,30,典型的OLAP操作,上卷(Roll up)/上鉆 (drill-up): 匯總數(shù)
29、據(jù)下鉆(Drill down)/下卷 (roll down): 上卷的逆操作切片(Slice)和切塊 : 投影和選擇 轉(zhuǎn)軸(Pivot)/旋轉(zhuǎn) (rotate): 調(diào)整數(shù)據(jù)方, 目視操作, 3D 到 2D 平面.其它操作鉆過(guò)(drill across): 涉及多個(gè)事實(shí)表鉆透(drill through): 通過(guò)數(shù)據(jù)方的最底層, 到它背后的關(guān)系表 (使用 SQL),31,OLAP 操作: 上卷,上卷(Roll up)/
30、上鉆 (drill-up): 匯總數(shù)據(jù)通過(guò)沿概念分層攀升或通過(guò)維歸約在 location上卷(由 cities 到 countries),32,OLAP 操作: 下鉆,下鉆(Drill down)/下卷 (roll down): 上卷的逆操作由較高層的匯總到較低層的匯總或詳細(xì)數(shù)據(jù), 或者引進(jìn)新的維在 time下鉆 (由 quarters 到 months),33,OLAP 操作:切片,切片(Slice) : 投影和選擇,對(duì)一個(gè)
31、維進(jìn)行選擇,導(dǎo)致子方體切片條件: time=“Q2”,34,OLAP 操作: 切塊,切塊 : 對(duì)兩個(gè)或多個(gè)維執(zhí)行選擇,導(dǎo)致子方體切塊條件: (location=“Montreal” or “Vancouver”) and (time=“Q1” or “Q2”) and (item=“home entertainment” or “computer”),35,OLAP 操作: 轉(zhuǎn)軸,轉(zhuǎn)軸(Pivot)/旋轉(zhuǎn) (rotate):
32、調(diào)整數(shù)據(jù)方, 可視化操作,提供數(shù)據(jù)的替代表示.,36,其他操作,其它操作鉆過(guò)(drill across): 涉及多個(gè)事實(shí)表鉆透(drill through): 通過(guò)數(shù)據(jù)方的最底層, 到它背后的關(guān)系表 (使用 SQL)統(tǒng)計(jì)計(jì)算比率、方差;增長(zhǎng)率分析建模,等,37,第3章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù),什么是數(shù)據(jù)倉(cāng)庫(kù)? 多維數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進(jìn)一步發(fā)展,38,數(shù)據(jù)倉(cāng)庫(kù)設(shè)
33、計(jì),數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)中,必須考慮四種視圖 自頂向下視圖選擇數(shù)據(jù)倉(cāng)庫(kù)所需的有關(guān)信息數(shù)據(jù)源視圖揭示(操作)數(shù)據(jù)庫(kù)系統(tǒng)捕獲、存儲(chǔ)、和管理的信息 數(shù)據(jù)倉(cāng)庫(kù)視圖由事實(shí)表和維表組成商務(wù)查詢視圖 從最終用戶的角度透視數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),39,數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程,自頂向下, 自底向上方法或二者的結(jié)合自頂向下: 由總體設(shè)計(jì)和規(guī)劃開始 (成熟)自底向上: 由實(shí)驗(yàn)和原型開始 (快速)軟件工程的觀點(diǎn)瀑布式: 在進(jìn)行下一步之前, 每一步都進(jìn)行結(jié)構(gòu)
34、化和系統(tǒng)的分析 螺旋式 :功能漸增的系統(tǒng)的快速產(chǎn)生, 相繼版本之間的間隔很短 , 快速轉(zhuǎn)向典型的數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)過(guò)程選取待建模的商務(wù)處理, 例如, 訂單, 發(fā)票, 庫(kù)存等.選取商務(wù)處理的粒度 (原子層數(shù)據(jù)), 例如,單個(gè)事務(wù)、一天的快照等 選取用于每個(gè)事實(shí)表記錄的維, 如,時(shí)間、商品、顧客、供應(yīng)商、倉(cāng)庫(kù)、事務(wù)類型和狀態(tài) 等選取將安放在事實(shí)表中的度量. 典型的度量是可加的數(shù)值量, 如dollars_sold和units_sold
35、,40,,多層結(jié)構(gòu),,數(shù)據(jù)倉(cāng)庫(kù),,,OLAP引擎,分析查詢報(bào)告數(shù)據(jù)挖掘,Monitor&Integrator,元數(shù)據(jù),,數(shù)據(jù)源,終端工具,輸出,,,,,,數(shù)據(jù)集市,,,,,,,,,數(shù)據(jù)存儲(chǔ),,,,,OLAP 服務(wù)器,,41,三層數(shù)據(jù)倉(cāng)庫(kù)模型,企業(yè)倉(cāng)庫(kù)搜集了關(guān)于主題的所有信息, 跨越整個(gè)組織 數(shù)據(jù)集市數(shù)據(jù)集市包含企業(yè)范圍數(shù)據(jù)的一個(gè)子集, 對(duì)于特定的用戶是有用的. 其范圍限于選定的主題, 如銷售數(shù)據(jù)獨(dú)立的 vs.
36、依賴的 (直接來(lái)自數(shù)據(jù)倉(cāng)庫(kù)) 數(shù)據(jù)集市虛擬倉(cāng)庫(kù)操作數(shù)據(jù)庫(kù)上視圖的集合 只有部分可能的匯總視圖被物化,42,,,,,,,數(shù)據(jù)倉(cāng)庫(kù)開發(fā): 一種推薦的方法,定義一個(gè)高層企業(yè)數(shù)據(jù)模型,數(shù)據(jù)集市,,,,,,,,,,,,,,,,分布式數(shù)據(jù)集市,多層數(shù)據(jù)倉(cāng)庫(kù),企業(yè)數(shù)據(jù)倉(cāng)庫(kù),模型 提煉,數(shù)據(jù)集市,模 型 提 煉,43,OLAP 服務(wù)器結(jié)構(gòu),關(guān)系OLAP (ROLAP) 使用關(guān)系或擴(kuò)充關(guān)系的 DBMS 存放和管理倉(cāng)庫(kù)數(shù)據(jù), 使用OLAP中
37、間件支持其它部分包含一個(gè)優(yōu)化的 DBMS 后端, 聚集導(dǎo)航邏輯的實(shí)現(xiàn), 以及附加的工具和服務(wù) 較大的可伸縮性多維 OLAP (MOLAP) 基于數(shù)組的多維存儲(chǔ)引擎 (稀疏矩陣技術(shù))對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)快速索引混合 OLAP (HOLAP)彈性, 底層: 關(guān)系的, 高層: 數(shù)組. 專門的 SQL 服務(wù)器對(duì)星型/雪花型模式上的SQL查詢提供特殊的支持,44,元數(shù)據(jù)存儲(chǔ),元數(shù)據(jù)是定義數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù). 有如下類型 描述數(shù)據(jù)倉(cāng)
38、庫(kù)的結(jié)構(gòu)模式, 視圖, 維, 分層結(jié)構(gòu), 數(shù)據(jù)源定義, 數(shù)據(jù)集市的位置和內(nèi)容操作元數(shù)據(jù)數(shù)據(jù)血統(tǒng) (數(shù)據(jù)變遷歷史和轉(zhuǎn)換路徑), 數(shù)據(jù)流通 (主動(dòng), 存檔, 或凈化), 管理信息 (數(shù)據(jù)倉(cāng)庫(kù)使用統(tǒng)計(jì), 錯(cuò)誤報(bào)告, 審計(jì)跟蹤)用于匯總的算法由操作環(huán)境到數(shù)據(jù)倉(cāng)庫(kù)的映射涉及系統(tǒng)性能的數(shù)據(jù)倉(cāng)庫(kù)模式, 視圖和導(dǎo)出數(shù)據(jù)的定義商務(wù)數(shù)據(jù)商務(wù)術(shù)語(yǔ)和定義, 數(shù)據(jù)的所有者, 收費(fèi)政策,45,數(shù)據(jù)倉(cāng)庫(kù)的后端工具和實(shí)用程序,數(shù)據(jù)提取:由多個(gè)異種,
39、 外部數(shù)據(jù)源收集數(shù)據(jù)數(shù)據(jù)清理:檢測(cè)數(shù)據(jù)中的錯(cuò)誤, 可能時(shí)訂正它們 數(shù)據(jù)變換:將數(shù)據(jù)由遺產(chǎn)或宿主格式轉(zhuǎn)換成數(shù)據(jù)倉(cāng)庫(kù)格式 裝載:排序, 綜合, 加固, 計(jì)算視圖, 檢查整體性, 并建立索引和劃分 刷新傳播由數(shù)據(jù)源到數(shù)據(jù)倉(cāng)庫(kù)的更新,46,第2章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù),什么是數(shù)據(jù)倉(cāng)庫(kù)? 多維數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進(jìn)一步發(fā)展,47,數(shù)據(jù)方的有效計(jì)算,數(shù)據(jù)方可以視為方
40、體的格 最下面的方體是基本方體最上面的 (頂點(diǎn)) 方體只包含一個(gè)單元具有L層的n-D數(shù)據(jù)方包含多少個(gè)方體?其中Li是與維i相關(guān)聯(lián)的層數(shù)數(shù)據(jù)方的物化(Materialization)物化每一個(gè)方體 (全物化), 不物化任何方體(不物化), 或物化某些方體(部分物化)物化方體的選擇基于大小, 共享, 訪問(wèn)頻率, 等.,48,數(shù)據(jù)方計(jì)算,用DMQL定義和計(jì)算數(shù)據(jù)方define cube sales[item, city
41、, year]: sum(sales_in_dollars)compute cube sales將它變換成類——SQL語(yǔ)句 (用新的操作 cube by擴(kuò)充, 由Gray 等’96引進(jìn))SELECT item, city, year, SUM (amount)FROM SALESCUBE BY item, city, year需要計(jì)算的分組 (city, item, year),(city,item),(city, ye
42、ar), (item, city),(city), (item), (year)(),,,,(item),,,,,,,,(city),(),,,(year),(city, item),(city, year),(item, year),(city, item, year),49,數(shù)據(jù)方計(jì)算: 基于ROLAP的方法(1),有效的方計(jì)算方法基于ROLAP的方計(jì)算算法 (Agarwal et al’96)基于數(shù)組的方計(jì)算算法 (Zha
43、o et al’97)自底向上的方法 (Beyer & Ramarkrishnan’99)混合的方法 (Han, Pei, Dong & Wang:SIGMOD’01)基于ROLAP的方計(jì)算算法排序, 散列,和分組操作用于維屬性, 以便對(duì)相關(guān)元組重新排序和分簇在某些子聚集上分組,作為“部分分組” 由以前計(jì)算的聚集計(jì)算新的聚集,而不必由基本事實(shí)表計(jì)算,50,數(shù)據(jù)方計(jì)算: 基于ROLAP的方法(2),取自研究論文
44、基于Hash/排序 的方法 (Agarwal 等. VLDB’96)最小雙親(Smallest-parent): 由最小的, 先前計(jì)算的方體計(jì)算方體存儲(chǔ)結(jié)果(Cache-results): 存儲(chǔ)先前計(jì)算的方體, 由它可以計(jì)算其它方體, 以減少磁盤I/O分?jǐn)倰呙?Amortize-scans): 同時(shí)計(jì)算盡可能多的方體, 以分?jǐn)偞疟P的讀操作開銷共享排序(Share-sorts): 使用基于排序的方法時(shí), 在多個(gè)方體之間共享排
45、序開銷共享劃分(Share-partitions): 使用基于hash的方法時(shí), 在多個(gè)方體之間共享劃分開銷,51,索引OLAP 數(shù)據(jù),為了有效的訪問(wèn),大部分?jǐn)?shù)據(jù)倉(cāng)庫(kù)系統(tǒng)支持索引結(jié)構(gòu)兩種常用的方法對(duì)OLAP數(shù)據(jù)進(jìn)行索引位圖索引 bitmap indexing連接索引 join indexing,52,索引OLAP 數(shù)據(jù): 位圖索引,在一個(gè)特定列上索引列上的每個(gè)值是一個(gè)位向量 : 位操作很快位向量的長(zhǎng)度: 基本表的記錄數(shù)如果
46、數(shù)據(jù)表中給定行的屬性值為v, 則在位圖索引的對(duì)應(yīng)行, 表示該值的位為1, 該行的其它位均為0 不適合勢(shì)(不同值個(gè)數(shù))很高的域,基本表,在 Region上索引,在 Type上索引,53,索引OLAP 數(shù)據(jù): 連接索引,連接索引: JI(R-id, S-id) , 其中 R (R-id, …) ?? S (S-id, …)將關(guān)系的連接物化在JI文件中, 加快了關(guān)系連接的速度數(shù)據(jù)倉(cāng)庫(kù)中, 連接索引將星型模式維表的值關(guān)聯(lián)到事實(shí)表的行.例
47、, 事實(shí)表Sales 和兩個(gè)維 city 和 productcity 上的連接索引對(duì)每個(gè)不同的城市, 維護(hù)一張記錄該城市銷售的元組的R連接索引可以擴(kuò)展到多維,54,OLAP查詢的有效處理,物化方體和構(gòu)造OLAP索引結(jié)構(gòu)的目的是加快數(shù)據(jù)立方體的查詢處理速度。查詢處理按如下步驟進(jìn)行:確定哪些操作可以在可用的方體上進(jìn)行 :將下鉆, 上卷等操作變換成對(duì)應(yīng)的SQL和/或OLAP操作, 例如, dice = selection + pro
48、jection確定相關(guān)的操作應(yīng)當(dāng)使用哪些物化的方體.,55,第3章: 數(shù)據(jù)挖掘的數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù),什么是數(shù)據(jù)倉(cāng)庫(kù)? 多維數(shù)據(jù)模型數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)數(shù)據(jù)倉(cāng)庫(kù)實(shí)現(xiàn)從數(shù)據(jù)倉(cāng)庫(kù)到數(shù)據(jù)挖掘數(shù)據(jù)立方體的進(jìn)一步發(fā)展,56,數(shù)據(jù)倉(cāng)庫(kù)使用,數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的三種類型信息處理支持查詢, 基本統(tǒng)計(jì)分析, 使用交叉表, 表, 圖表和圖進(jìn)行報(bào)告分析處理數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的多維分析支持基本的 OLAP 操作, 切片-切塊, 上下鉆, 轉(zhuǎn)軸數(shù)據(jù)挖掘隱
49、藏模式的知識(shí)發(fā)現(xiàn) 支持關(guān)聯(lián), 構(gòu)造分析模型, 進(jìn)行分類和預(yù)測(cè), 并使用可視化工具提供挖掘結(jié)果.三類任務(wù)的差別,57,從聯(lián)機(jī)分析處理到聯(lián)機(jī)分析挖掘,為什么要進(jìn)行聯(lián)機(jī)分析挖掘(OLAM)?數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的高質(zhì)量數(shù)據(jù)倉(cāng)庫(kù)包含集成的, 一致的, 清理過(guò)的數(shù)據(jù)圍繞數(shù)據(jù)倉(cāng)庫(kù)的有價(jià)值的信息處理基礎(chǔ)設(shè)施ODBC, OLEDB, Web 訪問(wèn), 服務(wù)機(jī)制, 報(bào)告 和 OLAP 工具基于OLAP的探測(cè)式數(shù)據(jù)分析使用上下鉆, 切片, 切塊,
50、轉(zhuǎn)軸等進(jìn)行挖掘.數(shù)據(jù)挖掘功能的聯(lián)機(jī)選擇集成多種挖掘功能, 算法和任務(wù), 并進(jìn)行切換.OLAM的結(jié)構(gòu),58,,,,,OLAM 的結(jié)構(gòu),數(shù)據(jù)倉(cāng)庫(kù),元數(shù)據(jù),MDDB,,,,OLAM引擎,OLAP引擎,,,,,,,,,,,,,,,用戶 GUI API,數(shù)據(jù)立方體 API,,,,,,數(shù)據(jù)庫(kù) API,,,數(shù)據(jù)清理,數(shù)據(jù)集成,,,,第3層OLAP/OLAM,第2層MDDB,第1層數(shù)據(jù)存儲(chǔ),第4層用戶界面,,,,過(guò)濾和集成,過(guò)濾,Da
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2、數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的olap技術(shù)
- 基于數(shù)據(jù)倉(cāng)庫(kù)的OLAP與數(shù)據(jù)挖掘.pdf
- 35420.基于數(shù)據(jù)倉(cāng)庫(kù)、olap和數(shù)據(jù)挖掘技術(shù)的數(shù)據(jù)分析、展現(xiàn)與預(yù)測(cè)
- 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘論文
- 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘習(xí)題
- 數(shù)據(jù)倉(cāng)庫(kù)、OLAP和數(shù)據(jù)挖掘技術(shù)在醫(yī)療保險(xiǎn)中的應(yīng)用與研究.pdf
- 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)復(fù)習(xí)資料
- 數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)研究及應(yīng)用.pdf
- 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘
- 數(shù)據(jù)倉(cāng)庫(kù)與OLAP技術(shù)在社區(qū)領(lǐng)域的應(yīng)用.pdf
- 基于數(shù)據(jù)倉(cāng)庫(kù)和OLAP技術(shù)的聚類挖掘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘題庫(kù)
- 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘教學(xué)大綱
- 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘課程設(shè)計(jì)
- 電量電費(fèi)數(shù)據(jù)倉(cāng)庫(kù)OLAP技術(shù)研究.pdf
- 數(shù)據(jù)倉(cāng)庫(kù)中OLAP的研究與實(shí)現(xiàn).pdf
- 《數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘》復(fù)習(xí)題
- 數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘 復(fù)習(xí)題
- 數(shù)據(jù)倉(cāng)庫(kù)、OLAP和數(shù)據(jù)挖掘在商業(yè)智能中的應(yīng)用研究.pdf
- 基于OLAP的數(shù)據(jù)倉(cāng)庫(kù)索引技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論