2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩6頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及發(fā)展方向摘 要:數(shù)據(jù)挖掘技術(shù)是當(dāng)前數(shù)據(jù)庫和人工智能領(lǐng)域研究的熱點。從數(shù)據(jù)挖掘的定義出發(fā),介紹了數(shù)據(jù)挖掘的神經(jīng)網(wǎng)絡(luò)法、決策樹法、遺傳算法、粗糙集法、模糊集法和關(guān)聯(lián)規(guī)則法等概念及其各自的優(yōu)缺點;詳細(xì)總結(jié)了國內(nèi)外數(shù)據(jù)挖掘的研究現(xiàn)狀及研究熱點,指出了數(shù)據(jù)挖掘的發(fā)展方向。關(guān)鍵詞:數(shù)據(jù)挖掘;神經(jīng)網(wǎng)絡(luò);決策樹;粗糙集;模糊集;研究現(xiàn)狀;發(fā)展方向The present situation and future direction

2、 ofthe data mining technology researchAbstract: Data mining technology is hot spot in the field of current database and artificial intelligence. From the definition of data mining, the paper introduced concepts and advan

3、tages and disadvantages of neural network algorithm, decision tree algorithm, genetic algorithm, rough set method, fuzzy set method and association rule method of data mining, summarized domestic and international resear

4、ch situation and focus of data mining in details, and pointed out the development trend of data mining.Key words: data mining, neural network, decision tree, rough set, fuzzy set, research situation, development directio

5、n 0 引言隨著信息技術(shù)的迅猛發(fā)展,許多行業(yè)如商業(yè)、企業(yè)、科研機(jī)構(gòu)和政府部門等都積累了海量的、不同形式存儲的數(shù)據(jù)資料[1]。這些海量數(shù)據(jù)中往往隱含著各種各樣有用的信息,僅僅依靠數(shù)據(jù)庫的查詢檢索機(jī)制和統(tǒng)計學(xué)方法很難獲得這些信息,數(shù)據(jù)和信息之間的鴻溝要求系統(tǒng)地開發(fā)數(shù)據(jù)挖掘工具,將數(shù)據(jù)墳?zāi)罐D(zhuǎn)換成知識金磚,從而達(dá)到為決策服務(wù)的目的。在這種情況下,一個新的技術(shù)——數(shù)據(jù)挖掘(Data Mining,DM)技術(shù)應(yīng)運而生[2]。數(shù)據(jù)挖掘正是為了迎合這種

6、需要而產(chǎn)生并迅速發(fā)展起來的、用于開發(fā)信息資源的、一種新的數(shù)據(jù)處理技術(shù)。數(shù)據(jù)挖掘通常又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discovery in Databases) ,是一個多學(xué)科領(lǐng)域,它融合了數(shù)據(jù)庫技術(shù)、人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計學(xué)、知識工程、信息檢索等最新技術(shù)的研究成果,其應(yīng)用非常廣泛。只要是有分析價值的數(shù)據(jù)庫,都可以利用數(shù)據(jù)挖掘工具來挖掘有用的信息。數(shù)據(jù)挖掘典型的應(yīng)用領(lǐng)域包括市場、工業(yè)生產(chǎn)、金融、醫(yī)學(xué)、科學(xué)研究、工程診斷等。

7、本文主要介紹數(shù)據(jù)挖掘的主要算法及其各自的優(yōu)缺點,并對國內(nèi)外的研究現(xiàn)狀及研究熱點進(jìn)行了詳細(xì)的總結(jié),最后指出其發(fā)展趨勢及問題所在。1 數(shù)據(jù)挖掘算法數(shù)據(jù)挖掘就是從大量的、有噪聲的、不完全的、模糊的、隨機(jī)的實際應(yīng)用數(shù)據(jù)中提取有效的、新穎的、潛在有用的知識的非平凡過程[3]。所得到的信息應(yīng)具有先前未知、有效和實用三個特征。數(shù)據(jù)挖掘過程如圖 1 所示。這些數(shù)據(jù)的類型可以是結(jié)構(gòu)化的、半結(jié)構(gòu)化的、甚至是異構(gòu)型的。發(fā)現(xiàn)知識的方法可以是數(shù)學(xué)的、非數(shù)學(xué)的、也

8、可以是歸納的。最終被發(fā)現(xiàn)了的知識可以用于信息管理、查詢優(yōu)化、決策支持及數(shù)據(jù)自身的維護(hù)等[4]。數(shù)據(jù)選擇:確定發(fā)現(xiàn)任務(wù)的操作對象,即目標(biāo)對象;預(yù)處理:包括消除噪聲、推導(dǎo)計算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換等;轉(zhuǎn)換:消減數(shù)據(jù)維數(shù)或降維;數(shù)據(jù)開采:確定開采的任務(wù),如數(shù)據(jù)總結(jié)、分類、聚類、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)或序列模式發(fā)現(xiàn)等,并確定使用什么樣的開采算法; 解釋和評價:數(shù)據(jù)挖掘階段發(fā)現(xiàn)的模式,經(jīng)過用戶和機(jī)器的評價,可能存在冗余或無關(guān)的模式,這時需

9、要剔除,使用戶更容易理解和應(yīng)用。 十大經(jīng)典算法如圖 2:目前,數(shù)據(jù)挖掘的算法主要包括神經(jīng)網(wǎng)絡(luò)法、決策樹法、遺傳算法、粗糙集法、模糊集法、關(guān)聯(lián)規(guī)則法等。叉變異及自然選擇等操作來生成實現(xiàn)規(guī)則的、基于進(jìn)化理論的機(jī)器學(xué)習(xí)方法。它的基本觀點是/適者生存 0 原理,具有隱含并行性、易于和其它模型結(jié)合等性質(zhì)。主要的優(yōu)點是可以處理許多數(shù)據(jù)類型,同時可以并行處理各種數(shù)據(jù),對問題的種類有很強(qiáng)的魯棒性;缺點是需要的參數(shù)太多,編碼困難,一般計算量比較大。遺傳算

10、法常用于優(yōu)化神經(jīng)元網(wǎng)絡(luò),解決其它技術(shù)難以解決的問題。1.4 粗糙集法粗糙集法也稱粗糙集理論,是一種新的處理含糊、不精確、不完備問題的數(shù)學(xué)工具,可以處理數(shù)據(jù)約簡、數(shù)據(jù)相關(guān)性發(fā)現(xiàn)、數(shù)據(jù)意義的評估等問題。其優(yōu)點是算法簡單,不需要關(guān)于數(shù)據(jù)的任何預(yù)備的或額外的信息;缺點是難以直接處理連續(xù)的屬性,須先進(jìn)行屬性的離散化。因此,連續(xù)屬性的離散化問題是制約粗糙集理論實用化的難點[7]。粗糙集理論主要應(yīng)用于近似推理、數(shù)字邏輯分析和化簡、建立預(yù)測模型等問題。

11、1.5 模糊集法模糊集法利用模糊集合理論對問題進(jìn)行模糊評判、模糊決策、模糊模式識別和模糊聚類分析。模糊集合理論是用隸屬度來描述模糊事物的屬性[7]。系統(tǒng)的復(fù)雜性越高,模糊性就越強(qiáng)。1.6 關(guān)聯(lián)規(guī)則法關(guān)聯(lián)規(guī)則反應(yīng)了事物之間的相互依賴性或關(guān)聯(lián)性。其最著名的算法是 R.AGRAWAL 等人提出的 Apriori 算法。最小支持度和最小可信度是為了發(fā)現(xiàn)有意義的關(guān)聯(lián)規(guī)則給定的 2個閾值。在這個意義上,數(shù)據(jù)挖掘的目的就是從源數(shù)據(jù)庫中挖掘出滿足最小支

12、持度和最小可信度的關(guān)聯(lián)規(guī)則。2 數(shù)據(jù)挖掘研究現(xiàn)狀2.1 國外研究現(xiàn)狀知識發(fā)現(xiàn)[8]( Knowledge Discovery in Databases, KDD)與 DM 是數(shù)據(jù)庫領(lǐng)域中最重要的課題之一。KDD 一詞是在 1989 年 8 月于美國底特律市召開的第十一屆國際人工智能會議上正式形成的。1995 年在加拿大蒙特利爾召開的首屆 KDD & Data Mining 國際學(xué)術(shù)會議上,把數(shù)據(jù)挖掘技術(shù)分為科研領(lǐng)域的知識發(fā)

13、現(xiàn)與工程領(lǐng)域的數(shù)據(jù)挖掘[9]。之后每年召開一次這樣的會議,經(jīng)過十幾年的努力,數(shù)據(jù)挖掘技術(shù)的研究已經(jīng)取得了豐碩的成果。目前,對 KDD 的研究主要圍繞理論、技術(shù)和應(yīng)用這三個方面展開。多種理論與方法的合理整合是大多數(shù)研究者采用的有效技術(shù)。目前,國外數(shù)據(jù)挖掘的最新發(fā)展主要有對發(fā)現(xiàn)知識的方法的進(jìn)一步研究,如近年來注重對Bayes(貝葉斯)方法以及 Boosting 方法的研究和改進(jìn)提高;KDD 與數(shù)據(jù)庫的緊密結(jié)合;傳統(tǒng)的統(tǒng)計學(xué)回歸方法在 KDD

14、 中的應(yīng)用。在應(yīng)用方面主要體現(xiàn)在 KDD 商業(yè)軟件工具從解決問題的孤立過程轉(zhuǎn)向建立解決問題的整體系統(tǒng),主要用戶有保險公司、大型銀行和銷售業(yè)等。許多計算機(jī)公司和研究機(jī)構(gòu)都非常重視數(shù)據(jù)挖掘的開發(fā)應(yīng)用,IBM 和微軟都相繼成立了相應(yīng)的研究中心[10]。美國是全球數(shù)據(jù)挖掘研究最繁榮的地區(qū),并占據(jù)著研究的核心地位。由于數(shù)據(jù)挖掘軟件市場需求量的增大,包括國際知名公司在內(nèi)的很多軟件公司都紛紛加入到了數(shù)據(jù)挖掘工具研發(fā)的行列中來,到目前已開發(fā)了一系列技術(shù)

15、成熟、應(yīng)用價值較高的數(shù)據(jù)挖掘軟件。以下為目前最主要的數(shù)據(jù)挖掘軟件:(1) Knowledge Studio:由 Angoss 軟件公司開發(fā)的能夠靈活地導(dǎo)入外部模型和產(chǎn)生規(guī)則的數(shù)據(jù)挖掘工具。最大的優(yōu)點:響應(yīng)速度快,且模型、文檔易于理解,SDK 中容易加入新的算法。(2) IBM Intelligent Miner:該軟件能自動實現(xiàn)數(shù)據(jù)選擇、轉(zhuǎn)換、發(fā)掘和結(jié)果呈現(xiàn)一整套數(shù)據(jù)挖掘操作;支持分類、預(yù)測、關(guān)聯(lián)規(guī)則、聚類等算法,并且具有強(qiáng)大的 API

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論