數(shù)據(jù)預(yù)處理ppt_第1頁
已閱讀1頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、1,第2章 數(shù)據(jù)預(yù)處理,,主要內(nèi)容,2.1 為什么要預(yù)處理數(shù)據(jù)2.2 描述性數(shù)據(jù)匯總2.3 數(shù)據(jù)清理2.4 數(shù)據(jù)集成和變換2.5 數(shù)據(jù)歸約2.6 數(shù)據(jù)離散化和概念分層產(chǎn)生,2,3,2.1 數(shù)據(jù)預(yù)處理的原因,正確性(Correctness)一致性(Consistency)完整性(Completeness) 可靠性(Reliability),數(shù)據(jù)質(zhì)量的含義,現(xiàn)實世界的數(shù)據(jù),不完整的缺少屬性值或某些感興趣的屬性,或僅包含聚集

2、數(shù)據(jù)。含噪聲的包含錯誤或存在偏離期望的離群值。不一致的采用的編碼或表示不同,如屬性名稱不同冗余的如屬性之間可以相互導(dǎo)出,5,數(shù)據(jù)錯誤的不可避免性,數(shù)據(jù)輸入和獲得過程數(shù)據(jù)錯誤數(shù)據(jù)集成所表現(xiàn)出來的錯誤數(shù)據(jù)傳輸過程所引入的錯誤 據(jù)統(tǒng)計有錯誤的數(shù)據(jù)占總數(shù)據(jù)的5%左右[Redmen],[Orr98],數(shù)據(jù)錯誤的危害性,高昂的操作費用糟糕的決策制定組織的不信任分散管理的注意力,7,數(shù)據(jù)預(yù)處理的形式,數(shù)據(jù)清理補充缺失數(shù)據(jù)、平

3、滑噪聲數(shù)據(jù)、識別或刪除離群點,解決不一致數(shù)據(jù)集成集成多個數(shù)據(jù)庫、數(shù)據(jù)立方或文件數(shù)據(jù)變換規(guī)范化和聚集數(shù)據(jù)歸約簡化數(shù)據(jù)、但產(chǎn)生同樣或相似的結(jié)果,數(shù)據(jù)預(yù)處理的形式,,小結(jié),現(xiàn)實世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。數(shù)據(jù)預(yù)處理技術(shù)可以改進數(shù)據(jù)的質(zhì)量,從而有助于提高其后的挖掘過程的精度和性能。高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預(yù)處理是知識發(fā)現(xiàn)過程的重要步驟。檢測異常數(shù)據(jù)、盡早地調(diào)整數(shù)據(jù)并歸約待分析的數(shù)據(jù),將在決策過

4、程中得到高回報。,2.2 描述性數(shù)據(jù)匯總,獲得數(shù)據(jù)的總體印象對于成功的數(shù)據(jù)預(yù)處理是至關(guān)重要的。描述性數(shù)據(jù)匯總技術(shù)可以用來識別數(shù)據(jù)的典型性質(zhì),突顯哪些數(shù)據(jù)值應(yīng)當視為噪聲或離群點。動機:更好的理解數(shù)據(jù)。主要內(nèi)容:度量數(shù)據(jù)的中心趨勢和離散程度、描述數(shù)據(jù)匯總的圖形顯示。,2.2.1 度量數(shù)據(jù)的中心趨勢,算數(shù)平均值最常用分布式度量可以通過如下方法計算度量(即函數(shù)):將數(shù)據(jù)集劃分成較小的子集,計算每個子集的度量,然后合并計算結(jié)果,得到原

5、(整個)數(shù)據(jù)集的度量值。sum()、count()、min()、max(),2.2.1 度量數(shù)據(jù)的中心趨勢…,代數(shù)度量可以通過應(yīng)用一個代數(shù)函數(shù)于一個或多個分布度量計算的度量。mean()、中列數(shù)整體度量必須對整個數(shù)據(jù)集計算的度量。中位數(shù)、眾數(shù),代數(shù)度量,mean():加權(quán)平均:截斷均值:去掉高、低極端值得到的均值。減小極端值對均值的影響。中列數(shù)(midrange ):(max+min)/2,整體度量,中位數(shù)(medi

6、an):適用于傾斜的數(shù)據(jù)。近似值計算如下:設(shè)N個數(shù)值排序,若N為奇數(shù),中位數(shù)是有序集的中間值;若N為偶數(shù),中位數(shù)是中間兩個值的平均值。例如:1,3,5,7 中位數(shù)4 1,3,5,6,7 中位數(shù)5,整體度量,眾數(shù)(mode):集合中出現(xiàn)頻率最高的值。單峰、多峰(雙峰、三峰…)、無眾數(shù)對于適度傾斜的單峰頻率曲線,有如下的經(jīng)驗關(guān)系:,16,中位數(shù)、均值和眾數(shù),17,極差最大值與最小值之差四分位

7、數(shù)中位數(shù)是第50個百分位數(shù),是第2個四分位數(shù)第1個是第25個百分位數(shù),Q1 中間四分位數(shù)極差 IQR = Q3 – Q1 離群點outlier與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對象盒圖方差、標準差反映了每個數(shù)與均值相比平均相差的數(shù)值,2.2.2 度量數(shù)據(jù)的離散程度,度量數(shù)據(jù)的離散程度…,盒圖boxplot,也稱箱線圖從下到上五條線分別表示最小值、下四分位數(shù)Q1 、中位數(shù)、上四分位數(shù)Q3和最大值盒的長度等于IRQ中位

8、數(shù)用盒內(nèi)的橫線表示盒外的兩條線(胡須) 分別延伸到最小和最大觀測值。,,,盒圖的功能1.直觀明了地識別數(shù)據(jù)集中的離群點 2.判斷數(shù)據(jù)集的偏態(tài)和尾重 3.比較幾批數(shù)據(jù)的形狀,,22,直方圖、分位數(shù)圖、分位數(shù)-分位數(shù)圖(q-q圖)散布圖、散布圖矩陣局部回歸(Loess)曲線,2.2.3 基本描述數(shù)據(jù)匯總的圖形顯示,直方圖 Histogram,概括給定屬性分布的圖形方法每個矩形等寬,分位數(shù)圖 Quantile Pl

9、ot,觀察單變量數(shù)據(jù)分布的簡單有效方法,散布圖scatter plot,直接觀察是否存在簇(cluster),離群點等每個點對應(yīng)一個坐標對,局部回歸(Loess)曲線,添加一條光滑曲線到散布圖,2.3 數(shù)據(jù)清理,現(xiàn)實世界的數(shù)據(jù)一般是不完整的、有噪聲的和不一致的。數(shù)據(jù)清理的任務(wù):填充缺失的值,光滑噪聲并識別離群點,糾正數(shù)據(jù)中的不一致。,28,忽略元組人工填寫空缺值使用一個全局常量填充空缺值 使用屬性的平均值填充空缺值使用與給

10、定元組屬同一類的所有樣本的平均值使用最可能的值填充空缺值,2.3.1 缺失值,29,分箱:通過考察數(shù)據(jù)的“近鄰”(周圍的值)來光滑有序數(shù)據(jù)的值。局部光滑。回歸:用一個函數(shù)(回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù)。聚類:將類似的值聚集為簇。其他:如數(shù)據(jù)歸約、離散化和概念分層。,2.3.2 噪聲數(shù)據(jù),30,分箱:通過考察數(shù)據(jù)的“近鄰”(周圍的值)來光滑有序數(shù)據(jù)的值。局部光滑。劃分:等頻、等寬光滑:用箱均值、用箱中位數(shù)、用箱邊界(去替

11、換箱中的每個數(shù)據(jù)),2.3.2 噪聲數(shù)據(jù),分箱法光滑數(shù)據(jù),Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34* Partition into equal-frequency (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25

12、 - Bin 3: 26, 28, 29, 34* Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29,* Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21,

13、21, 25, 25 - Bin 3: 26, 26, 26, 34,,回歸:用一個函數(shù)(回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù)。線性回歸多元線性回歸聚類:將類似的值聚集為簇。檢測離群點,回歸Regression,,,,,,,,,,,,,,,,,x,y,y = x + 1,,,,X1,Y1,Y1’,聚類Cluster Analysis,,,,2.3.3 數(shù)據(jù)清理作為一個過程,偏差檢測使用“元數(shù)據(jù)”編碼使用的不一致、數(shù)據(jù)表示的

14、不一致、字段過載等一些規(guī)則:唯一性規(guī)則、連續(xù)性規(guī)則、空值規(guī)則。商業(yè)工具:數(shù)據(jù)清洗工具、數(shù)據(jù)審計工具數(shù)據(jù)變換(糾正偏差)數(shù)據(jù)遷移工具提取/變換/載入(ETL)工具加強交互性數(shù)據(jù)清理工具:Potter’s Wheel開發(fā)數(shù)據(jù)變換操作規(guī)范說明語言,2.4 數(shù)據(jù)集成和變換,數(shù)據(jù)集成合并多個數(shù)據(jù)源中的數(shù)據(jù),存放在一個一致的數(shù)據(jù)庫(如數(shù)據(jù)倉庫)中。源數(shù)據(jù)可能包括多個數(shù)據(jù)庫,數(shù)據(jù)立方體或一般文件。數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖

15、掘的形式。,37,實體識別元數(shù)據(jù)可幫助避免錯誤屬性冗余相關(guān)分析數(shù)據(jù)重復(fù)(元組冗余)數(shù)據(jù)值沖突的檢測與處理表示、比例或編碼不同,2.4.1 數(shù)據(jù)集成,38,平滑:去掉數(shù)據(jù)中的噪聲。技術(shù)包括分箱、回歸、聚類。聚集Aggregation :對數(shù)據(jù)進行匯總或聚集。數(shù)據(jù)泛化(概化):使用概念分層,用高層概念替換低層或“原始”數(shù)據(jù)。規(guī)范化:將屬性數(shù)據(jù)按比例縮放,使之落入一個小的特定區(qū)間。最小-最大、Z-Score、按小數(shù)定標規(guī)范化

16、。屬性構(gòu)造(特征構(gòu)造):由給定的屬性構(gòu)造新的屬性并添加到屬性集中,以幫助挖掘過程??梢詭椭岣邷蚀_率和對高維數(shù)據(jù)結(jié)構(gòu)的理解。,2.4.2 數(shù)據(jù)變換,規(guī)范化,1)最小-最大規(guī)范化:將原始數(shù)據(jù)v經(jīng)線性變換,映射到區(qū)間[new_minA, new_maxA]例如:income的最大,最小值分別為9000,2000,則將它的值映射到[0,1]時,若income的值6800規(guī)范后為: (6800-2000)/(9000-2000)*(1

17、-0)+0=0.686,,存在問題:若存在離群點,可能影響規(guī)范化若在規(guī)范化后添加新的數(shù)據(jù),當新數(shù)據(jù)落在原數(shù)據(jù)的區(qū)間[minA, maxA]之外,將導(dǎo)致“越界”錯誤。,規(guī)范化…,2) z-score規(guī)范化(零均值規(guī)范化):屬性A的值基于A的平均值和標準差規(guī)范化。對離群點不敏感,2.5 數(shù)據(jù)歸約 Data Reduction,對海量數(shù)據(jù)進行復(fù)雜的數(shù)據(jù)分析和挖掘?qū)⑿枰荛L時間,使得這種分析不現(xiàn)實或不可行。數(shù)據(jù)歸約技術(shù)可以用來得到

18、數(shù)據(jù)集的歸約表示,它小得多,但仍接近保持原數(shù)據(jù)的完整性。對歸約后的數(shù)據(jù)集挖掘?qū)⒏行?,并產(chǎn)生相同(或幾乎相同)的結(jié)果。,數(shù)據(jù)歸約,數(shù)據(jù)歸約策略:(1)數(shù)據(jù)立方體聚集:對數(shù)據(jù)立方體做聚集操作(2)屬性子集選擇:檢測并刪除不相關(guān)、弱相關(guān)或冗余的屬性和維。(3)維度歸約:刪除不重要的屬性(4)數(shù)值歸約:用規(guī)模較小的數(shù)據(jù)表示、替換或估計原始數(shù)據(jù)(5)離散化和概念分層(concept hierarchy)產(chǎn)生屬性的原始數(shù)值用區(qū)間值

19、或較高層的概念替換,2.5.1 數(shù)據(jù)立方體聚集,數(shù)據(jù)立方體存儲多維聚集信息,提供對預(yù)計算的匯總數(shù)據(jù)進行快速訪問。如:立方體內(nèi)存儲季度銷售額,若對年銷售額感興趣,可對數(shù)據(jù)執(zhí)行聚集操作,例如sum()等。,,,,,2.5.2 屬性子集選擇,通過刪除不相關(guān)或冗余的屬性(或維)減小數(shù)據(jù)集。其目標是找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性得到的原分布。通過窮舉搜索找出有屬性的最佳子集是不現(xiàn)實的。通常采用壓縮搜索空間的啟發(fā)

20、式算法。如貪心算法:從局部最優(yōu)到全局最優(yōu)。逐步向前選擇逐步向后刪除向前選擇和向后刪除的結(jié)合決策樹歸納,2.5.3 維度歸約,維度歸約使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的歸約或“壓縮”表示。分為無損和有損兩種。主要方法:串壓縮:無損,但只允許有限的數(shù)據(jù)操作。小波變換(DWT):有損,適合高維數(shù)據(jù)。主成分分析(PCA):有損,能更好地處理稀疏數(shù)據(jù)。,2.5.4 數(shù)值歸約,通過選擇替代的、“較小的”數(shù)據(jù)表示形式來減少數(shù)據(jù)量。

21、可以分為參數(shù)方法和非參數(shù)方法。參數(shù)方法:回歸(regression )和對數(shù)線性模型非參數(shù)方法:直方圖、聚類、抽樣,抽樣,用數(shù)據(jù)的小得多的隨機樣本(子集)不是大型數(shù)據(jù)集。抽樣方法s個樣本無放回簡單隨機抽樣(SRSWOR)s個樣本有放回簡單隨機抽樣(SRSWR)聚類抽樣分層抽樣,2.6 數(shù)據(jù)離散化和概念分層產(chǎn)生,數(shù)據(jù)離散化技術(shù)用少數(shù)區(qū)間標記替換連續(xù)屬性的數(shù)值,從而減少和簡化了原來的數(shù)據(jù)??梢詫σ粋€屬性遞歸地進行離散化,產(chǎn)生

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論