高維數(shù)據(jù)聚類技術中的若干算法研究.pdf_第1頁
已閱讀1頁,還剩79頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)挖掘是一種可以在數(shù)據(jù)庫上挖掘有用信息的技術,這些信息被稱為知識,所以數(shù)據(jù)挖掘又稱知識發(fā)現(xiàn)。從大量數(shù)據(jù)中挖掘出的知識可用于決策支持、數(shù)據(jù)分析等領域,隨著數(shù)據(jù)庫的發(fā)展,數(shù)據(jù)挖掘已顯得越來越重要。 隨著數(shù)據(jù)規(guī)模的不斷增大,傳統(tǒng)聚類分析方法難以發(fā)揮作用。聚類操作實際上是數(shù)據(jù)對象之間相似性的度量,相似度高的對象被歸為一類。在低維空間中經(jīng)常使用歐氏距離等函數(shù)來度量相似性,但在高維情況下由于相似性沒有傳遞性,距離函數(shù)不再發(fā)揮作用,而高維數(shù)

2、據(jù)的距離函數(shù)難于定義,因此必須重新考慮新的度量數(shù)據(jù)對象相似性的標準或準則。另外,由于維數(shù)很高,傳統(tǒng)聚類算法的計算復雜度會很高,其應用也受到了很大的局限性。 針對高維數(shù)據(jù)引起的“維度災難”問題,本文研究了高維數(shù)據(jù)的特點,充分利用單維與多維的關系,提出了用單維來分割高維數(shù)據(jù),并將數(shù)據(jù)進行整合,按維序逐次聚類的HDCA_SDP算法。在單個維上進行聚類時,采用索引轉換技術來預處理數(shù)據(jù),從而簡化高維數(shù)據(jù)處理問題。該算法每次處理只針對一個維

3、層次,經(jīng)過層層處理,最終就能得到完整數(shù)據(jù)空間上的聚類。 在HDCA_SDP算法的基礎上,分析并整合了傳統(tǒng)數(shù)據(jù)聚類算法K-means算法的幾種改進算法,提出了適用于更高維空間的聚類算法DFBC。DFBC算法首先在高維數(shù)據(jù)空間上,將維劃分為比較低的維組合,在這些維組合的數(shù)據(jù)空間上運用改進的K-means算法進行聚類,以維組合為層次,聚類過程是逐層進行的,這實際上跟單維分割聚類技術是相似的,所有層處理完之后就得到了最終的聚類結果。相比

4、于單維分割聚類技術,使用維分組的聚類技術更適用于大型更高維的數(shù)據(jù)空間。該算法按照維組層次的增長,計算時間也是呈線性變化的,但是就算法的思想來說,它是低維聚類與高維聚類技術的一種折衷。 本文還對網(wǎng)格的聚類技術進行了研究,分析了固定網(wǎng)格劃分聚類與自適應網(wǎng)格劃分聚類存在的缺陷,針對GCOD算法存在的缺陷,提出了一種改進的方法。GCOD算法主要采用了相交網(wǎng)格劃分的措施,對固定網(wǎng)格劃分與自適應網(wǎng)格劃分技術采取了一種折衷的處理策略。但是GC

5、OD算法未對相交網(wǎng)格的大小進行限制,使得這其中會存在許多不合理化聚類。我們針對這個問題提出了對網(wǎng)格大小進行限制的方法,并且提出了更加合理的密度計算方法。研究了子空間聚類的一些算法,針對經(jīng)典算法CLIQUE存在的缺陷,提出了基于半相交網(wǎng)格劃分的HIGSC算法。它首先利用半相交網(wǎng)格劃分方法在單個維上進行聚類,然后利用類Apriori規(guī)則來形成子空間,在子空間形成的過程中運用類HDCA_SDP方法產(chǎn)生子空間上的聚類。算法的性能較CLIQUE算

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論