粒計算分類知識發(fā)現(xiàn)算法及其應用.pdf_第1頁
已閱讀1頁,還剩118頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、人類正在步入一個以知識生產、應用為最重要因素的知識經濟時代。以知識發(fā)現(xiàn)為核心的智能信息處理技術在知識的生產過程中具有越來越重要的作用。分類具備一般知識發(fā)現(xiàn)的數(shù)據(jù)預處理、數(shù)據(jù)挖掘、模型評估和知識表示的基本流程,是一項重要的知識發(fā)現(xiàn)任務。由于分類的廣泛應用及其在化學化工領域的重要意義,對分類方法展開研究不僅可以促進數(shù)據(jù)挖掘技術的發(fā)展,還能極大地開拓化學化工領域中知識發(fā)現(xiàn)的應用前景。
   目前,分類知識發(fā)現(xiàn)的研究和技術已有長足進步,

2、各種挖掘方法層出不窮,但一些有待研究的問題也日趨突出。尤其在化學化工領域,由于采集和積累的數(shù)據(jù)往往具有多因子、非線性、高噪音和非均勻分布等特點,常規(guī)的分析和處理方法不僅耗時,而且難以有效地挖掘和發(fā)現(xiàn)其中所隱含的知識,相關的分類知識發(fā)現(xiàn)方法和技術有待改進和發(fā)展,對之展開深入的研究,對促進化學化工學科的發(fā)展具有重要的意義,也會產生巨大的經濟價值。
   粒計算是信息處理的一種新的概念和計算范式,覆蓋了所有與粒度相關的理論、方法、技術

3、和工具。粒計算的基本思想是模擬人類智能的特點,在求解復雜問題時,通過選擇合適的粒度,降低問題求解的難度,有助于找到一種較好的解決方案。粒計算原理為知識發(fā)現(xiàn)的研究提供了新途徑。但是,目前有關粒計算的研究大多還以理論研究為主,粒計算的應用研究較少,尤其在化學化工領域,更鮮見文獻報道。本文歸納提出了粒計算用于知識發(fā)現(xiàn)的四項基本原理,利用此原理,對當前分類知識發(fā)現(xiàn)方面的若干挑戰(zhàn)問題進行了研究,提出了相應的策略和方法,以用于化學化工領域中的相關問

4、題。
   本文的主要研究工作和成果可歸納如下:
   1.?;途垲愂且环N對知識進行總結概括的方法,聚類生成的類刻畫了數(shù)據(jù)所蘊涵的類知識。聚類分析,是軟科學研究的重要的基礎性方法,也是一種有效的手段。自適應共振(Adaptive Resonance Theory,ART)網(wǎng)絡ART2用于聚類,具有許多優(yōu)點。同時也存在對輸入的漸變模式不敏感,抗噪音性能有限的缺點。為此,本文提出了改進的自適應共振網(wǎng)絡(ART2 with

5、Enhanced Triplex Matching mechanism,ETM-ART2),加強了內部檢測機制,以提高ART2網(wǎng)絡的性能,對橄欖油樣本進行聚類分析試驗,其聚類性能優(yōu)良,尤適用于海量數(shù)據(jù)的聚類問題。ETM-ART2還可為分類問題構建信息粒,有助于知識發(fā)現(xiàn),并提高分類性能。
   2.粒的構建是應用粒計算的基本步驟之一。本文根據(jù)粒度求解近似原理,提出了采用ART網(wǎng)絡構建信息粒,可為分析對象方便、快速地建立合適的信息粒

6、;又由GrC(Granular computing,GrC)問題簡化原理,提出了基于信息粒的分類知識發(fā)現(xiàn)的求解方案。開發(fā)了兩個算法:其一,基于信息粒的模糊分類知識發(fā)現(xiàn)算法(Information Granulation based FuzzyClassification Knowledge Discovery Method, IG-FCKDM);其二,基于粒的關鍵特征分析(Key Feature Analysis based on Gr

7、anulation,KFAG)、由C4.5實施分類規(guī)則挖掘的算法KFAG-C4.5。IG-FCKDM側重于求解非均衡兩分類問題和分類誤差敏感問題,即分類判定錯誤可能帶來巨大損失。它采用Fuzzy ART構建信息粒,繼而通過模糊處理,提取分類規(guī)則。對疾病診斷的試驗表明,IG-FCKDM處理此類問題效果較好,且其預測正確性和可信度對用戶有更重要的意義。KFAG-C4.5可用于一般分類問題和多類非均衡分類問題。它采用ETM-ART2構建信息粒

8、,再進行本文提出的基于粒的關鍵特征分析,并將各屬性合理地劃分為具有較強的類別區(qū)分能力的若干子屬性,子屬性數(shù)不致過多。使信息粒由子屬性描述,并以離散值0或1表示。便于最后采用C4.5實施分類規(guī)則挖掘。對玻璃兩分類和多類非均衡問題的試驗表明,KFAG-C4.5具有較好的分類識別能力。IG-FCKDM和KFAG-C4.5這兩個算法挖掘所得知識雖然表現(xiàn)形式有所不同,但都很簡潔,可理解性好,易于各類專業(yè)人員分析,且較好地解決了非均衡數(shù)據(jù)的分類問題

9、。
   3.集成學習常可提高單個分類器的性能,隨著研究的深入,選擇性集成學習逐漸成為研究熱點。當前,基于隨機優(yōu)化算法的選擇性集成算法,大多以泛化誤差為目標,基本忽略了個體分類器本身的特性,尤其是差異性度量。這些方法也取得了一些成果,但計算復雜度較高,效率偏低。為解決個體分類器差異性度量的難題,本文基于GrC問題的等價原理,將選擇性集成問題轉換到較簡單的關聯(lián)空間,研究了一種簡單而高效的選擇機制,開發(fā)了基于知識粒、兼顧正確率和差異

10、性的選擇集成(Correctness and Diversity based Selective Ensemble,CDSE)算法。將其用于毒性作用機制的分類試驗,其性能優(yōu)于集成算法Bagging、AdaBoost.M1,以及單個C4.5分類器。CDSE從優(yōu)選個體分類器的角度出發(fā),為提高集成分類的泛化性能和效率提供了有效的解決方案。
   4.在集成分類器的構建生成和預測判定這兩個層面上,提出了自適應的新思路,將CDSE拓展為自

11、適應集成(Correctness and Diversity based Adaptive Selective Ensemble,CDASE)學習算法,進一步提高了集成分類的泛化性能。CDASE針對每一類別,自適應地生成特定適用的集成分類器,組合為集成分類器組AE-Group,其中各個集成分類器間存在包容性,故其占用的計算資源甚少,有效地減少了存儲空間和計算時間。AE-Group又以自適應方式,即從集成分類器組中選用最適合的集成分類器對

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論