開題報(bào)告--基于自適應(yīng)和演化自適應(yīng)的組合遺傳算法的聚類分析

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-01 格式：docx 頁(yè)數(shù)：9 大?。?0.40KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

開題報(bào)告--基于自適應(yīng)和演化自適應(yīng)的組合遺傳算法的聚類分析_第1頁(yè)

已閱讀1頁(yè)，還剩8頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、　　本科畢業(yè)設(shè)計(jì)開題報(bào)告　　（2014屆）　　論文題目基于自適應(yīng)和演化自適應(yīng)的　　組合遺傳算法的聚類分析　　一、選題的背景與意義　　1.1 研究開發(fā)的目的</p&g

2、t;　　聚類分析作為一種重要的數(shù)據(jù)預(yù)處理技術(shù)，是數(shù)據(jù)挖掘領(lǐng)域極具挑戰(zhàn)性的一類組合優(yōu)化問題，其目標(biāo)是將一個(gè)數(shù)據(jù)對(duì)象集或模式集劃分成若干個(gè)簇，使同一個(gè)簇中的對(duì)象具高度同質(zhì)性，不同簇之間的對(duì)象具高度異質(zhì)性[1,2,3]?，F(xiàn)有的不同類型的聚類算法已廣泛應(yīng)用于各類領(lǐng)域，諸如模式識(shí)別、機(jī)器學(xué)習(xí)、決策科學(xué)、圖像處理、人工智能和商業(yè)等。傳統(tǒng)的聚類算法大體上可分為層次聚類和劃分聚類兩大類，前者是將數(shù)據(jù)對(duì)象組成一顆聚類樹，通過合并或者

3、分裂兩種方式遞歸地產(chǎn)生嵌套聚類層次而后者則同時(shí)找到K個(gè)聚類中心來劃分?jǐn)?shù)據(jù)集，并采用迭代重定位技術(shù)改進(jìn)數(shù)據(jù)聚類效果。本文主要研究劃分聚類并且聚類中心數(shù)目作為先驗(yàn)條件，這個(gè)先驗(yàn)條件對(duì)于大數(shù)據(jù)處理是十分必要的。然而，因?yàn)橥ǔ?shù)據(jù)規(guī)模大和數(shù)據(jù)維度高，而且劃分聚類作為一種已知的NP-難問題，許多已有的聚類算法諸如K-means算法根據(jù)其規(guī)則函數(shù)只能找到局部最優(yōu)解，而無法找到全局最優(yōu)解[4]。　　顯然，我們

4、可以通過啟發(fā)式全局隨機(jī)優(yōu)化算法來解決此類聚類問題，諸如美國(guó)Michigan大學(xué)的John Holland教授發(fā)明的遺傳算法。其作為一類進(jìn)化算法，可在可行解空間內(nèi)隨機(jī)化搜索最優(yōu)解，具有很高的隱含并行性，適用于解決復(fù)雜的非線性和多維空間尋優(yōu)問題以及組合優(yōu)化問題[5,6,7]。傳統(tǒng)的遺傳算法根據(jù)個(gè)體的適應(yīng)度值來選擇個(gè)體，然后通過遺傳算子進(jìn)行交叉、變異，產(chǎn)生新的種群。顯然，遺傳算法已成為一種重要的解決數(shù)據(jù)聚類問題的工具，然而如何設(shè)置合適的遺傳算

5、法的參數(shù)值將決定遺傳算法的性能[8,9]。其一，因?yàn)樘囟ǖ膯栴}需要特定的參數(shù)值才能找到最優(yōu)解或者近似解，其值也決定了是否能夠高效地找到可行解。其二，因?yàn)檫@些參數(shù)存在非線性關(guān)系以至于很難決定參數(shù)的最優(yōu)值。其三，因?yàn)樵谶z傳進(jìn)化的不同階段，這些參數(shù)值的最優(yōu)值可能不同。因此，如何優(yōu)化如交叉率和變異率這些參數(shù)值將是本文的重點(diǎn)。　　為了解決參數(shù)設(shè)置問題，本文將結(jié)合現(xiàn)有的自適應(yīng)和演化自適應(yīng)參數(shù)設(shè)置兩種方法來改

6、善遺傳算法的性能，提高聚類效果，為實(shí)際工程應(yīng)用提供更加簡(jiǎn)單，易行的手段。　　1.2 國(guó)內(nèi)外研究發(fā)展現(xiàn)狀　　為遺傳算法設(shè)置合適的參數(shù)值是一個(gè)研究熱點(diǎn)，現(xiàn)有的參數(shù)設(shè)置機(jī)制主要由運(yùn)行前確定和動(dòng)態(tài)適應(yīng)兩種方法[9,10,11]。運(yùn)行前確定是指用戶在算法運(yùn)行前找到合適的參數(shù)值并且這些參數(shù)值在運(yùn)行過程中保持不變。但是，已從實(shí)踐和理論上證明了最優(yōu)參數(shù)值的組合不僅在每個(gè)

7、問題上不同，而且依據(jù)搜索的狀態(tài)和已搜索到的空間，在進(jìn)化的不同階段，也不盡相同。所以，這顯然是一個(gè)十分耗時(shí)的過程。更重要的是，這種方法違背了遺傳算法固有的動(dòng)態(tài)和自適應(yīng)特征。　　演化自適應(yīng)控制（Self-adaptive parameter control）和自適應(yīng)控制（Adaptive parameter control）是目前應(yīng)用最為廣泛的兩種動(dòng)態(tài)適應(yīng)參數(shù)設(shè)置機(jī)制。演化自適應(yīng)控制通過把遺傳算法的

8、參數(shù)值編碼到個(gè)體中，與個(gè)體一起經(jīng)歷交叉和變異，利用算法本身來確定合適的參數(shù)值。該機(jī)制的工作原理是編碼在個(gè)體中合適的參數(shù)值將產(chǎn)生高適宜度個(gè)體，這些高適宜度個(gè)體將有高幾率生存下去并產(chǎn)生后代，因此延續(xù)了這些合適的參數(shù)值。采用這種參數(shù)設(shè)置機(jī)制，現(xiàn)有多種方法來調(diào)節(jié)遺傳算法的變異和/或交叉率。Back[12,13]通過對(duì)數(shù)函數(shù)改變個(gè)體的變異率，雖然這種方法在組合優(yōu)化問題上比傳統(tǒng)的遺傳算法性能好，但是學(xué)習(xí)率對(duì)自適應(yīng)速度影響大。Juha[14]則將演化

9、自適應(yīng)這種方法應(yīng)用于聚類分析。演化自適應(yīng)控制適合于在復(fù)雜的優(yōu)化問題上設(shè)置遺傳算法的交叉和變異率。然而，采用該機(jī)制，算法在運(yùn)行過程中其交叉和變異率往往會(huì)過快下降而陷于局部最優(yōu)[15]。自適應(yīng)控制則利用遺傳算法運(yùn)行過程中的某種反饋信息來自適應(yīng)的改變參數(shù)值。如 Ghosh等[16]，Palmes 等[17]和 Srinivas 等[18]利　　二、研究開發(fā)的基本內(nèi)容、目標(biāo)，擬解決的主要問題或技術(shù)關(guān)鍵&

10、lt;/p>　　2.1 研究目標(biāo)　　現(xiàn)有基于遺傳算法的聚類分析存在參數(shù)設(shè)置難問題。本課題將提出結(jié)合演化自適應(yīng)和自適應(yīng)參數(shù)設(shè)置相結(jié)合的技術(shù)來研究有效參數(shù)設(shè)置方法，以解決參數(shù)設(shè)置問題，提高遺傳聚類算法的整體性能。項(xiàng)目成果可應(yīng)用于科學(xué)研究和工程設(shè)計(jì)，具有較強(qiáng)的理論價(jià)值和應(yīng)用價(jià)值。　　2.2 研究

11、的基本內(nèi)容　　項(xiàng)目擬通過在演化自適應(yīng)控制技術(shù)中結(jié)合自適應(yīng)控制技術(shù)來克服其過高下行壓力帶來的缺陷。具體的，項(xiàng)目擬采用自適應(yīng)控制技術(shù)來調(diào)節(jié)演化自適應(yīng)技術(shù)得到的交叉和變異率，其實(shí)現(xiàn)過程如下：　　對(duì)于遺傳算法中的每個(gè)個(gè)體，在更新編碼在其中的變異和交叉率時(shí)：　　a）首先，利用下列公式：<p&g

12、t;　　分別得到P1m(t+1)和P1c(t+1)，得到的值不更新到個(gè)體中；式中N(0,1)是均值為0標(biāo)準(zhǔn)差為1的正態(tài)分布隨機(jī)數(shù)，γ為控制參數(shù)；　　b)接著，利用下列公式：　　分別得到P2m(t+1)和P2c(t+1)；式中fave為群體的平均適宜度，fmax為群體中最優(yōu)個(gè)體的適宜度，f為個(gè)體適宜度，f＇為交叉操作雙方較優(yōu)個(gè)體的適宜度，k1，k2，k3

13、，k4為(0,1]之間常數(shù)。　　c)假如P1m (t+1)<P2m(t+1)，則采用下列公式計(jì)算新的P1m(t+1)：　　反之，則計(jì)算新的P1m(t+1)如下：　　式中R(P2m(t+1)-P1m (t+1))和R(P1m (t+1)-P2m (t+1))分別產(chǎn)生[0,P2m (t+1)-P1m (t+1

14、)]和[0,P1m (t+1)-P2m (t+1)]之間的隨機(jī)數(shù)。　　d)以同樣的方式計(jì)算P1c (t+1)，得到的P1m (t+1)和P1c (t+1)值最后更新到個(gè)體中。　　另外，項(xiàng)目也可通過自適應(yīng)控制技術(shù)來引導(dǎo)演化自適應(yīng)技術(shù)對(duì)交叉和變異率的變異操作，其實(shí)現(xiàn)過程如下：　　對(duì)于遺傳算法中的每個(gè)個(gè)體，在更新編碼

15、在其中的變異和交叉率時(shí)。首先，提取編碼在該個(gè)體中的變異和交叉率，分別為Pm(t)和Pc(t)。然后，利用公式（3）和（4）分別計(jì)算P2m (t+1)和P2c (t+1)。假如Pm(t)<P2m (t+1)，則重復(fù)執(zhí)行公式（1），直到新的變異率P1m (t+1)大于Pm(t)。反之，則重復(fù)執(zhí)行公式（1），直到新的變異率P1m (t+1)小于Pm(t)。以同樣的方式得到新的交叉率，最后把新的變異和交叉率更新到個(gè)體中。

16、;　　上述兩種方法通過自適應(yīng)控制技術(shù)得到的變異、交叉率，分別來調(diào)節(jié)和引導(dǎo)演化自適應(yīng)技術(shù)的變異、交叉率。初步應(yīng)用結(jié)果顯示，結(jié)合演化自適應(yīng)和自適應(yīng)的參數(shù)設(shè)置方法可有效設(shè)置遺傳聚類算法的參數(shù)值，其效果明顯好于單單采用演化自適應(yīng)或自適應(yīng)控制技術(shù)。因此，進(jìn)一步在不同聚類問題上對(duì)設(shè)計(jì)的參數(shù)設(shè)置方法進(jìn)行分析、比較以及與其它方法的對(duì)比來確立其優(yōu)勢(shì)，成為本課題的重要內(nèi)容。　　2.3 需要解決

17、的技術(shù)難點(diǎn)　　(1) 如何結(jié)合演化自適應(yīng)和自適應(yīng)參數(shù)控制機(jī)制來有效設(shè)置遺傳算法的參數(shù)值，是本課題需要突破的技術(shù)要點(diǎn)和難點(diǎn)。　?。?）用C++面向?qū)ο笏枷耄贕ALib庫(kù)編程，尋找相應(yīng)的數(shù)據(jù)集，測(cè)試算法性能　　三、研究開發(fā)的方法、技術(shù)路線和步驟　　系統(tǒng)平臺(tái)：Microso

18、ft Windows 7　　編程語(yǔ)言：C++、R語(yǔ)言　　C++是一種使用非常廣泛的面向?qū)ο缶幊陶Z(yǔ)言，由貝爾實(shí)驗(yàn)室的Bjarne Stroustrup在C的基礎(chǔ)上推出。C++是一種靜態(tài)數(shù)據(jù)類型檢查的、支持多重編程范式的通用程序設(shè)計(jì)語(yǔ)言。它支持過程化程序設(shè)計(jì)、資料抽象化、面向?qū)ο蟪绦蛟O(shè)計(jì)、泛型程序設(shè)計(jì)等多種程序設(shè)計(jì)風(fēng)格[22]。<

19、;p>　　R語(yǔ)言主要用于統(tǒng)計(jì)分析、繪圖、數(shù)據(jù)挖掘，是一款強(qiáng)大的統(tǒng)計(jì)分析軟件。　　系統(tǒng)開發(fā)工具：Microsoft Visual C++ 2008 Express　　Microsoft Visual C++是微軟公司的C++集成開發(fā)工具，可編輯C語(yǔ)言，C++以及C++/CLI等編程語(yǔ)言，擁有語(yǔ)法高亮，自動(dòng)編譯，高級(jí)除錯(cuò)等功能[23]。</p&g

20、t;　　GALib庫(kù)　　GALib是有美國(guó)MIT的Matthew Wall用C++開發(fā)的一套免費(fèi)的遺傳算法類庫(kù)，包括基因組類、適應(yīng)度定標(biāo)方法類、進(jìn)化群體類、遺傳算法類等主要類。　　數(shù)據(jù)來源　　本課題用于測(cè)試的數(shù)據(jù)集主

21、要來自于美國(guó)加州大學(xué)信息與計(jì)算機(jī)科學(xué)系提供的數(shù)據(jù)[24]以及自己用R語(yǔ)言生成的數(shù)據(jù)。　　實(shí)現(xiàn)步驟　　編碼：采用實(shí)數(shù)編碼K個(gè)聚類中心，那么對(duì)于N維的解空間，其染色體長(zhǎng)度是N*K。例如2維的數(shù)據(jù)，3個(gè)聚類中心，染色體為(51.5 72.3 18.3 15.4 29.1 30.9),那么聚類中心為(51.5,72.3)(

22、18.3,15.4)( 29.1,30.9)。　　種群初始化：種群的大小代表著一代有多少個(gè)染色體（個(gè)體）參與運(yùn)算，其值對(duì)遺傳算法的性能也有一定影響，若設(shè)置太小，容易收斂到局部最優(yōu)值，若設(shè)置太大，計(jì)算時(shí)間則很大。本課題在算法運(yùn)行前變確定它的值。　　適應(yīng)度計(jì)算：度量群體中各個(gè)體在優(yōu)化計(jì)算中可能達(dá)到或接近最優(yōu)解的優(yōu)良程度。本課題采用歐幾里德距離來度量。<

23、/p>　　選擇：從種群中選擇一定數(shù)量的個(gè)體，進(jìn)行基因操作（交叉，變異），產(chǎn)生下一代的個(gè)體，遵循適者生存的自然法則，即適應(yīng)度值越大，有更大的概率被選擇。采用輪盤賭（roulette wheel selection）選擇方式。　　交叉：通過交換兩個(gè)父代的染色體信息產(chǎn)生兩個(gè)子代個(gè)體。　　變異：對(duì)于每個(gè)染色體的基因位都遭受變異操作。&

24、lt;/p>　　終止條件：設(shè)定迭代次數(shù)或者參看個(gè)體適應(yīng)度之間的差異　　四、研究工作總體安排與時(shí)間進(jìn)度　　參考文獻(xiàn)　　[1] Jain, Anil K. "Data clustering: 50 years beyond K-means.&

25、quot; Pattern Recognition Letters 31.8 (2010): 651-666. 　　[2] Jain, Anil K., M. Narasimha Murty, and Patrick J. Flynn. "Data clustering: a review." ACM computing surveys (CSU

26、R) 31.3 (1999): 264-323. 　　[3] Han J, Kamber M. 數(shù)據(jù)挖掘：概念與技術(shù)[M]. 第二版. 機(jī)械工業(yè)出版社, 2007. 　　[4] M.Garey and D.Johnson, Computers and intractability-a guide to the theory of NP-comp

27、leteness, W.H.Freeman, San Francisco, 1979.　　[5] Weise, Thomas. "Global optimization algorithms–theory and application." Self-Published, (2009). 　　[6] Mitchell, Melanie

28、. An introduction to genetic algorithms. MIT press, 1998.　　[7] 王小平,曹立明.遺傳算法--理論應(yīng)用與軟件實(shí)現(xiàn)[M].西安:西安交通大學(xué)出版社,2002.　　[8] Maulik, Ujjwal, and Sanghamitra Bandyopadhyay. "Genetic alg

29、orithm-based clustering technique." Pattern recognition 33.9 (2000): 1455-1465.　　[9] Eiben, Agoston Endre, Robert Hinterding, and Zbigniew Michalewicz. "Parameter control in evolutionary al

30、gorithms." Evolutionary Computation, IEEE Transactions on 3.2 (1999): 124-141.　　[10] Michalewicz, Zbigniew, and Martin Schmidt. "Parameter control in practice." Parameter setting in ev

31、olutionary algorithms. Springer Berlin Heidelberg, 2007. 277-294.　　[11] De Jong, Kenneth. "Parameter setting in EAs: a 30 year perspective."Parameter Setting in Evolutionary Algorithms. Spr

32、inger Berlin Heidelberg, 2007. 1-18.　　[12] Bäck, Thomas, and Martin Schütz. "Intelligent mutation rate control in canonical genetic algorithms." Foundations of intelligent sy

33、stems. Springer Berlin Heidelberg, 1996. 158-167.　　[13] Back, Eiben, “An empirical study on Gas “without parameters”,” Lecture Notes in Computer Science, pp.315-324, 2000.　　[14]

34、 Kivijärvi, Juha, Pasi Fränti, and Olli Nevalainen. "Self-adaptive genetic algorithm for clustering." Journal of Heuristics 9.2 (2003): 113-129.　　[15] Glickman, Matthew

35、R., and Katia Sycara. "Reasons for premature convergence of self-adapting mutation rates." Evolutionary Computation, 2000. Proceedings of the 2000 Congress on. Vol. 1. IEEE, 2000.　　[16

36、] Ghosh, Arnob, et al. "An improved differential evolution algorithm with fitness-based adaptation of the control parameters." Information Sciences 181.18 (2011): 3749-3765.　　[17]

37、 Palmes, Paulito P., Taichi Hayasaka, and Shiro Usui. "Mutation-based genetic neural network." Neural Networks, IEEE Transactions on 16.3 (2005): 587-600.　　[18] Srinivas, M., and

38、Lalit M. Patnaik. "Adaptive probabilities of crossover and mutation in genetic algorithms." Systems, Man and Cybernetics, IEEE Transactions on 24.4 (1994): 656-667. 　　[19] Islam,

39、Sk Minhazul, et al. "An adaptive differential evolution algorithm with novel mutation and crossover strategies for global numerical optimization." Systems, Man, and Cybernetics, Part B: Cybernetics, IEEE T

40、ransactions on 42.2 (2012): 482-500. 　　[20] 江中央，蔡自興，王勇，“求解全局優(yōu)化問題的混合自適應(yīng)正交遺傳算法”，軟件學(xué)報(bào)，21卷，6 期，2010.　　[21] Wang, Jing, et al. "Alternative Fuzzy Cluster segmentation of rem

41、ote sensing images based on Adaptive Genetic Algorithm." Chinese Geographical Science19.1 (2009): 83-88. 　　[22] 百度百科.http://baike.baidu.com/view/824.htm　　[23] 百度百科.http

42、://baike.baidu.com/view/3450746.htm　　[24] MerzC, Murphy P, Aha D. UCI repository of Machine Learning databases. Depantment of Information and Computer Science, University of California, Irvine, http:

眾賞文庫(kù)> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

開題報(bào)告--基于自適應(yīng)和演化自適應(yīng)的組合遺傳算法的聚類分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

開題報(bào)告--基于自適應(yīng)和演化自適應(yīng)的組合遺傳算法的聚類分析

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載