數(shù)據(jù)挖掘中增量聚類算法的研究.pdf_第1頁
已閱讀1頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、數(shù)據(jù)挖掘技術領域中一項重要的數(shù)據(jù)分析技術——聚類分析技術在許多重要方面都得到了廣泛的應用,近年來得到了廣泛的研究,并取得了較快的發(fā)展。其實,聚類問題實質上是把待處理的原始樣本數(shù)據(jù)對象通過某種相似性準則函數(shù)被分為若干類,想要達到的結果就是同一組相似性盡可能高,不同組之間差異性盡可能大,然后在這些不同組之間尋找聯(lián)系,進行進一步的操作。目前研究的聚類分析大致可以分為:劃分聚類(Partitioning clustering)、層次聚類(Hie

2、rarchical clustering)、網(wǎng)格聚類(Grid-based clustering)、密度聚類(Density clustering)、模糊聚類(Fuzzy Clustering Algorithm)、模型聚類(Model clustering)等。
  聚類K-means方法是一種基于分割的聚類算法,由于其易于實現(xiàn),易于操作,簡單高效,被廣大研究學者廣泛用于研究。但也有一些缺陷,K-means方法在選取初始中心進行

3、聚類時采取的是隨機選取的形式,這就使得聚類結果將遵循初始中心選擇變化,因此,本文在K-means方法的基礎之上,針對K-means方法存在的不足之處進行了鉆研與應用,主要的鉆研有以下幾個方面:
  1.對于傳統(tǒng)的K-means方法進行了探討,針對傳統(tǒng)K-means聚類算法初始聚類中心隨機選取的缺陷進行改進,本文根據(jù)KD-樹這種高效的數(shù)據(jù)結構對K-means方法進行改進提出了優(yōu)化中心選取的新方法。該方法引入KD-樹這種數(shù)據(jù)結構,將數(shù)

4、據(jù)集建立KD-樹,通過對KD-樹中矩形單元的分割、計算、排序等操作,選取出能夠表示樣本數(shù)據(jù)分布形態(tài)的k個非噪聲點的初始聚類中心;根據(jù)上述提出的算法,結合優(yōu)化選取的k個代表樣本數(shù)據(jù)空間分布形態(tài)的初始聚類中心和增量數(shù)據(jù)建立新的KD-樹,通過近鄰搜索將增量數(shù)據(jù)劃分到對應的類中,完成增量數(shù)據(jù)的動態(tài)聚類過程。
  2.傳統(tǒng)協(xié)同過濾算法應用的樣本數(shù)據(jù)空間都會轉化為用戶-項目評分矩陣,但是矩陣中會出現(xiàn)“0”值或是空值,使得轉化后的評分矩陣數(shù)據(jù)稀

5、疏,本文中提出的算法機制是結合了聚類分析的技術和協(xié)同過濾的技術同時產生商品推薦。其中主要是在聚類分析算法中選擇了K-means方法進行了研究與使用,K-means方法存在一個最典型的缺陷就是聚類初始階段隨機選取中心點,本文的新方法先是利用Kruskal最小生成樹算法改進K-means的不足,提出了一種Kruskal改進的K-means聚類方法—KrusK-means算法。接下來在協(xié)同過濾推薦機制中同時利用KrusK-means算法對項目

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論