2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

1、聚類分析,是將物理或抽象對象集合劃分為由相似對象組成的多個類的過程。近年來,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,聚類分析作為數(shù)據(jù)挖掘的重要內(nèi)容得到了廣泛的研究,并應用于許多領域中。 隨著信息與互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們擁有的數(shù)據(jù)不僅數(shù)量越來越龐大,而且數(shù)據(jù)類型越來越復雜、結(jié)構(gòu)越來越多樣。因此,現(xiàn)有的聚類算法在實際應用中仍然面臨兩個問題:1)算法在處理大規(guī)模數(shù)據(jù)時,性能急劇下降甚至無法完成數(shù)據(jù)分析,不具有可伸縮性;2)很多聚類算法局限于理論上的分

2、析,較少考慮具體應用中的實際數(shù)據(jù)特征與差異,因而實用性差。 交易數(shù)據(jù)是一類特殊的類別數(shù)據(jù),具有數(shù)據(jù)量大和維數(shù)高的特點。典型的交易數(shù)據(jù)包括購物籃數(shù)據(jù)、WEB日志數(shù)據(jù)、客戶信息、病人診斷記錄以及圖像信息等,通常產(chǎn)生于零售業(yè)、電子商務、醫(yī)療以及電信、保險、銀行等行業(yè)。因此,針對交易數(shù)據(jù),研究可伸縮聚類分析方法是一個同時具有挑戰(zhàn)性和實際意義的課題。本論文以大規(guī)模交易數(shù)據(jù)為研究對象,重點研究大規(guī)模交易數(shù)據(jù)聚類分析中的一些問題。本文的主要研

3、究內(nèi)容和創(chuàng)新點包括以下幾個方面: (1)提出了可伸縮的大規(guī)模交易數(shù)據(jù)聚類分析框架,即SCALE(Sampling,ClusteringstructureAssessment,cLusteringanddomain—specificEvaluation)。SCALE的設計具有下列特點:1)針對交易數(shù)據(jù)的特征,提出采用覆蓋密度以及加權(quán)覆蓋密度有效地測量一組交易數(shù)據(jù)的整體相似度;2)基于加權(quán)覆蓋密度設計和實現(xiàn)可伸縮的WCD交易數(shù)據(jù)聚類

4、算法;3)采用聚類結(jié)構(gòu)探測方法生成候選的聚類數(shù)量,有效地減少聚類算法參數(shù)空間的搜索;4)將聚類結(jié)果評估集成到該框架下,用領域特定的度量輔助用戶選擇最優(yōu)的聚類結(jié)果。實驗結(jié)果表明SCALE框架下的交易數(shù)據(jù)聚類分析能生成高質(zhì)量的交易數(shù)據(jù)聚類結(jié)果。 (2)研究了交易數(shù)據(jù)聚類結(jié)構(gòu)探測的問題。針對通用類別數(shù)據(jù)聚類結(jié)構(gòu)識別方法BKPlot的兩個弱點,即噪音候選聚類數(shù)量多以及處理具有大量數(shù)據(jù)項的交易數(shù)據(jù)集時算法性能下降,提出在交易數(shù)據(jù)集找出一組

5、候選的最優(yōu)聚類數(shù)量“Ks”的新方法,即DMDI方法。以自定義的交易聚類模式相異度度量為基礎設計和開發(fā)出一種凝聚的層次聚類算法,即ACTD算法。利用ACTD算法在聚類過程中生成的合并索引值可發(fā)現(xiàn)候選的最優(yōu)聚類數(shù)量。實驗表明,DMDI方法能有效地識別交易數(shù)據(jù)聚類結(jié)構(gòu)。 (3)研究了交易數(shù)據(jù)聚類分析結(jié)果的穩(wěn)定性問題。傳統(tǒng)基于劃分的聚類方法的聚類結(jié)果常常陷入局部最優(yōu),而SOM神經(jīng)網(wǎng)絡的聚類結(jié)果穩(wěn)定,但只能處理數(shù)值型數(shù)據(jù)。為此,本文提出了

6、一種基于GHSOM神經(jīng)網(wǎng)絡的交易數(shù)據(jù)聚類分析方法,即GHSOM—CD方法。該方法在GHSOM網(wǎng)絡學習算法中引入覆蓋密度的概念,改進了神經(jīng)元權(quán)值更新方法以及網(wǎng)絡訓練停止條件。實驗表明GHSOM—CD方法在交易數(shù)據(jù)集上產(chǎn)生的聚類結(jié)果更有意義,是SOM神經(jīng)網(wǎng)絡在類別數(shù)據(jù)聚類分析上的擴展應用。 (4)研究了頻繁項集的壓縮問題。針對頻繁項集挖掘中頻繁項集數(shù)量過多的問題,研究并提出一種動態(tài)聚類的方法,即EESC算法,近似壓縮頻繁項集。該聚類

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論