《金融智能》7_第1頁
已閱讀1頁,還剩32頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、數(shù)據(jù)預(yù)處理,,數(shù)據(jù)預(yù)處理技術(shù)概述,數(shù)據(jù)預(yù)處理技術(shù)主要是接受并理解用戶的挖掘要求,確定挖掘任務(wù),抽取與挖掘任務(wù)相關(guān)的數(shù)據(jù)源,根據(jù)領(lǐng)域知識中的約束規(guī)則對數(shù)據(jù)進行合法性檢查,通過清理和規(guī)約等操作,生成挖掘算法所需要的目標數(shù)據(jù),他匯集了原始數(shù)據(jù)中與數(shù)據(jù)挖掘任務(wù)相關(guān)的所有數(shù)據(jù)的總體特征,是最原始的知識模板。,數(shù)據(jù)預(yù)處理技術(shù)概述,數(shù)據(jù)預(yù)處理研究內(nèi)容數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程中的一個重要步驟,尤其是在對包含有噪聲、不完整,甚至不一致數(shù)據(jù)進行數(shù)據(jù)挖掘時

2、,更需要進行數(shù)據(jù)的預(yù)處理,以提高數(shù)據(jù)挖掘的質(zhì)量,并最終達到提高數(shù)據(jù)挖掘所獲模式知識質(zhì)量的目的。,數(shù)據(jù)預(yù)處理技術(shù)概述,數(shù)據(jù)預(yù)處理的重要性 1)數(shù)據(jù)預(yù)處理可以去掉數(shù)據(jù)中的噪聲 (eg.領(lǐng)導(dǎo)講話)2)糾正不正確的屬性值(人機輸入時錯誤 )3)對于不一致的數(shù)據(jù)進行清理(填寫缺失值、光滑噪聲數(shù)據(jù)、識別刪除離群點)4)數(shù)據(jù)預(yù)處理可以提高數(shù)據(jù)挖掘的效率(壓縮數(shù)據(jù)集不損害數(shù)據(jù)挖掘結(jié)果),數(shù)據(jù)預(yù)處理任務(wù),一個全面的金融智能解決方案必須通過數(shù)據(jù)挖掘

3、解決數(shù)據(jù)一致性與集成化問題,能夠從所有傳統(tǒng)環(huán)境與平臺中采集數(shù)據(jù),并對其數(shù)據(jù)進行高效的轉(zhuǎn)換。這個解決方案就是ETL。,數(shù)據(jù)預(yù)處理任務(wù),通常數(shù)據(jù)預(yù)處理的過程主要包括以下幾個方面任務(wù)數(shù)據(jù)清洗數(shù)據(jù)集成 數(shù)據(jù)變換 數(shù)據(jù)歸約,數(shù)據(jù)預(yù)處理任務(wù),數(shù)據(jù)清洗數(shù)據(jù)清洗是要去除源數(shù)據(jù)集中的噪聲數(shù)據(jù)和無關(guān)數(shù)據(jù),處理遺漏數(shù)據(jù)和清洗臟數(shù)據(jù),去除空白數(shù)據(jù)域和知識背景上的白噪聲,考慮時間順序和數(shù)據(jù)變化等。主要包括重復(fù)數(shù)據(jù)處理和缺值數(shù)據(jù)處理,并完成一些數(shù)據(jù)類型的

4、轉(zhuǎn)換。數(shù)據(jù)清洗分為有監(jiān)督(領(lǐng)域?qū)<抑笇?dǎo)下)和無監(jiān)督(樣本數(shù)據(jù)訓(xùn)練算法)兩類。,數(shù)據(jù)預(yù)處理任務(wù),數(shù)據(jù)集成數(shù)據(jù)集成主要是將多文件或多數(shù)據(jù)庫運行環(huán)境中的異構(gòu)數(shù)據(jù)進行合并處理,解決語義的模糊性。該部分主要涉及數(shù)據(jù)的選擇、數(shù)據(jù)的沖突問題以及不一致數(shù)據(jù)的處理問題。 由于數(shù)據(jù)可能來自多個實際系統(tǒng),所以存在異構(gòu)數(shù)據(jù)的轉(zhuǎn)換問題。另外,多個數(shù)據(jù)源的數(shù)據(jù)之間,還存在許多不一致的地方,如命名、結(jié)構(gòu)、單位和含義等。,數(shù)據(jù)預(yù)處理任務(wù),數(shù)據(jù)變換數(shù)據(jù)變換主要是找到

5、數(shù)據(jù)的特征表示,用維變換或轉(zhuǎn)換方法減少有效變量的數(shù)目或找到數(shù)據(jù)的不變式,包括規(guī)格化、切換、旋轉(zhuǎn)和投影等操作。(eg. 2e+10; 出生年月&年齡 vs 孩子數(shù)量&家庭成員數(shù)),數(shù)據(jù)預(yù)處理任務(wù),數(shù)據(jù)歸約數(shù)據(jù)歸約是在對挖掘任務(wù)和數(shù)據(jù)本身內(nèi)容理解的基礎(chǔ)上,尋找依賴于發(fā)現(xiàn)目標的數(shù)據(jù)的有用特征,以縮減數(shù)據(jù)規(guī)模,從而在盡可能保持數(shù)據(jù)原貌的前提下,最大限度地精簡數(shù)據(jù)量。,數(shù)據(jù)預(yù)處理方法,數(shù)據(jù)清洗方法現(xiàn)實世界的數(shù)據(jù)常常是有噪聲、不

6、完全的和不一致的。數(shù)據(jù)清洗過程通過填補遺漏數(shù)據(jù)、消除異常數(shù)據(jù)、平滑噪聲數(shù)據(jù),以及糾正不一致的數(shù)據(jù)。,數(shù)據(jù)清洗方法,遺漏數(shù)據(jù)處理如果在分析數(shù)據(jù)時,發(fā)現(xiàn)有多個記錄中的屬性值為空,可以采用以下方法進行處理: ① 忽略該記錄(eg.出勤) ② 手工填補遺漏值 ③ 利用默認值填補遺漏值 ④ 利用均值填補遺漏值(eg.考試) ⑤ 利用同類別均值填補遺漏值 ⑥ 利用最可能的值填補遺漏值(回歸、決策樹等預(yù)測),數(shù)據(jù)清洗方法,噪聲數(shù)據(jù)處理

7、噪聲是指被測變量的一個隨機錯誤和變化: ① Bin方法。通過利用相應(yīng)被平滑數(shù)據(jù)點的周圍點,對一組排序數(shù)據(jù)進行平滑 ② 聚類方法(通過聚類分析可以幫助發(fā)現(xiàn)異常數(shù)據(jù)) ③ 人機結(jié)合檢查方法 ④ 回歸方法(利用擬合函數(shù)對數(shù)據(jù)進行平滑),數(shù)據(jù)清洗方法,① Bin方法,數(shù)據(jù)清洗方法,不一致數(shù)據(jù)處理數(shù)據(jù)庫中經(jīng)常出現(xiàn)數(shù)據(jù)記錄內(nèi)容的不一致,其中一些數(shù)據(jù)的不一致可以利用他們與外部的關(guān)聯(lián)手工加以解決。,數(shù)據(jù)預(yù)處理方法,數(shù)據(jù)集成方法數(shù)據(jù)挖掘任務(wù)常

8、常涉及數(shù)據(jù)集成操作,即將來自多個數(shù)據(jù)源的數(shù)據(jù),如:數(shù)據(jù)庫、數(shù)據(jù)立方(data cubes)、普通文件等,結(jié)合在一起并形成一個統(tǒng)一數(shù)據(jù)集合,以便為數(shù)據(jù)挖掘工作的順利完成提供完整的數(shù)據(jù)基礎(chǔ)。,數(shù)據(jù)集成方法,模式集成問題如何使來自多個數(shù)據(jù)源的現(xiàn)實世界的實體相互匹配,涉及到實體識別問題(如何確定一個數(shù)據(jù)庫中的customer_id與另一個數(shù)據(jù)庫中的cust_number表示同一實體?元數(shù)據(jù)可以幫助避免發(fā)生錯誤),數(shù)據(jù)集成方法,冗余問題若一個

9、屬性可以從其他屬性中推演出來,那么這個屬性就是冗余屬性;屬性命名不一致也會導(dǎo)致集成后數(shù)據(jù)集出現(xiàn)不一致數(shù)據(jù)值沖突檢測與消除(來自不同數(shù)據(jù)源的屬性值可能不同,eg.比例尺度,貨幣單位),數(shù)據(jù)預(yù)處理方法,數(shù)據(jù)轉(zhuǎn)換方法所謂數(shù)據(jù)轉(zhuǎn)換就是將數(shù)據(jù)轉(zhuǎn)換或歸已構(gòu)成一個適合數(shù)據(jù)挖掘的描述形式。數(shù)據(jù)轉(zhuǎn)換包含以下處理內(nèi)容。 1)平滑處理。 2)合計處理。 3)數(shù)據(jù)泛化處理(Generali

10、zation) 4)規(guī)格化。 5)屬性構(gòu)造。,數(shù)據(jù)轉(zhuǎn)換方法,平滑處理該過程幫助除去數(shù)據(jù)中的噪聲,如Bin方法、聚類方法、回歸方法等合計處理對數(shù)據(jù)進行總結(jié)或合計操作(eg.從每天銷售額獲得每月或每年銷售額)泛化處理泛化處理是用更抽象的概念來取代低層次或數(shù)據(jù)層的數(shù)據(jù)對象(eg.年齡屬性可以映射到年輕、中年、老年),數(shù)據(jù)轉(zhuǎn)換方法,規(guī)格化將有關(guān)屬性數(shù)據(jù)按照比例投射到特定小范圍之中(eg.將

11、工資收入屬性值映射到0.0~1.0)屬性構(gòu)造根據(jù)已有屬性集構(gòu)造新的屬性,以幫助數(shù)據(jù)挖掘過程(eg. Y=aX1+bX2+cX3),數(shù)據(jù)預(yù)處理方法,數(shù)據(jù)歸約方法數(shù)據(jù)規(guī)約技術(shù)正是用于幫助從原有龐大數(shù)據(jù)集中獲得一個精簡的數(shù)據(jù)集合,并使這一精簡數(shù)據(jù)集保持原有數(shù)據(jù)集的完整性,這樣在精簡數(shù)據(jù)集上進行數(shù)據(jù)挖掘顯然效率更高,并且挖掘出來的結(jié)果與使用原有數(shù)據(jù)集所獲得結(jié)果基本相同。,數(shù)據(jù)歸約方法,數(shù)據(jù)立方合計這類聚集操作作用于數(shù)據(jù)立方中的數(shù)據(jù),對該

12、數(shù)據(jù)進行處理。,數(shù)據(jù)歸約方法,維數(shù)歸約檢測并刪除不相關(guān)、弱相關(guān)或冗余的屬性或維。 (eg.預(yù)測是否購買基金的規(guī)則時電話號碼可能與挖掘任務(wù)無關(guān))通常使用屬性子集選擇方法(Attribute Subset Selection),目標就是尋找出最小的屬性子集并確保新數(shù)據(jù)子集的概率分布盡可能接近原來的數(shù)據(jù)集的概率分布。方法有逐步添加方法,每次選擇一個當前最優(yōu)屬性(收入、年齡、職業(yè)等)逐步消減方法,每次從屬性子集選擇當前最差屬性除去(身份

13、證、身高、性別等)決策樹歸納法,對初始數(shù)據(jù)進行分類歸納學(xué)習(xí),獲得初始決策樹,沒有出現(xiàn)在決策樹的均為無關(guān)屬性,數(shù)據(jù)歸約方法,數(shù)據(jù)壓縮主要用于監(jiān)測和消除無關(guān)、弱相關(guān)、或冗余的屬性,并使用編碼機制壓縮數(shù)據(jù)集。小波分析,是一種線性信號處理技術(shù),該技術(shù)方法可以將一個數(shù)據(jù)向量D轉(zhuǎn)換為另一個數(shù)據(jù)向量D’,兩個向量具有相同長度。但是后者可以舍棄其中一些小波相關(guān)系數(shù)。主因素分析,利用其進行數(shù)據(jù)壓縮時,假設(shè)數(shù)據(jù)由N個數(shù)據(jù)行組成,有K個維度。PCA從

14、K個維度中尋找c個共軛向量,從而實現(xiàn)對初始數(shù)據(jù)進行有效的數(shù)據(jù)壓縮。,數(shù)據(jù)歸約方法,離散化和概念層次樹生成離散化和概念分層將屬性的原始值用區(qū)間值或較高層的概念替換。概念分層允許挖掘多個抽象層上的數(shù)據(jù),是數(shù)據(jù)挖掘一種強有力的工具。,,,,,,,,,,,青年,中年,壯年,18 …,25,26 …,35,36 …,55,數(shù)據(jù)預(yù)處理方法,用于Web挖掘的預(yù)處理由于日志記錄和HTTP協(xié)議的自身原因,日志數(shù)據(jù)

15、是雜亂的,Web使用挖掘預(yù)處理是在Web使用挖掘前,對Web日志所記錄的數(shù)據(jù)進行清理、過濾以及重新組合過程。Web使用預(yù)處理的目的是剔除日志中對挖掘過程無用的屬性及數(shù)據(jù),并將Web日志數(shù)據(jù)轉(zhuǎn)換為挖掘算法可識別的保存形式。,用于Web挖掘的預(yù)處理,使用預(yù)處理Web日志文件清楚地記錄了站點訪問者的瀏覽行為,記錄了每一次網(wǎng)頁請求信息。它是使用挖掘的最主要數(shù)據(jù)來源,絕大多數(shù)Web使用挖掘都是直接利用Web日志來進行。,日志文件,數(shù)據(jù)凈化,用戶

16、會話識別,瀏覽頁識別,路徑補充,服務(wù)器會話文件,路徑補充,事務(wù)文件,使用統(tǒng)計,站點結(jié)構(gòu)和內(nèi)容,用于Web挖掘的預(yù)處理,結(jié)構(gòu)預(yù)處理結(jié)構(gòu)挖掘的預(yù)處理主要是通過Web站點結(jié)構(gòu)及網(wǎng)頁特征信息的抽取和過濾,為結(jié)構(gòu)挖掘準備數(shù)據(jù)。,Web,URL集合,URL處理,地址路徑處理,路徑補充,數(shù)據(jù)庫,網(wǎng)頁分析,URL提取,超鏈過濾,輸入初 始URL,讀取,分配URL,用于Web挖掘的預(yù)處理,內(nèi)容預(yù)處理Web內(nèi)容挖掘分為文本挖掘和多媒體挖掘。多媒體挖掘處

17、于起步階段,仍停留在從多媒體的屬性進行挖掘,對于文本挖掘的預(yù)處理,通過以下幾個步驟完成,站點文件,分類算法,文本分類,分詞處理,文本特征表示,特征提取,對元數(shù)據(jù)(特征項)進行量化,有意義地抽取關(guān)鍵詞項的相關(guān)信息,數(shù)據(jù)預(yù)處理工具,評價ETL工具的標準評價ETL工具的標準可以從對平臺的支持(Windows,Linux,UNIX)、對數(shù)據(jù)源的支持(Excel,SQL Server,Text,XML)、數(shù)據(jù)轉(zhuǎn)換功能(字段映射、拆分、行列變換等

18、)、管理和調(diào)度功能、對元數(shù)據(jù)管理(映射規(guī)則、轉(zhuǎn)換規(guī)則、加載策略都屬于元數(shù)據(jù)范疇)和集成和開放性等幾個方面考慮。,數(shù)據(jù)預(yù)處理工具,主流的ETL工具 目前的ETL工具在一定范圍內(nèi)解決了數(shù)據(jù)的抽取和轉(zhuǎn)換。但這些工具基本都不能自動完成數(shù)據(jù)的抽取,用戶還需利用這些工具編寫適當?shù)霓D(zhuǎn)換程序,對用戶的技術(shù)水平要求較高。Oracle Warehouse BuilderInformatica PowerCenterMicrosoft SQL Se

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論