基于一致性的不完備數(shù)據(jù)模糊聚類方法研究.pdf_第1頁
已閱讀1頁,還剩69頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、在實際應用中,受環(huán)境和人為因素的影響,所得的實驗數(shù)據(jù)往往存在數(shù)據(jù)缺失的現(xiàn)象,影響了在此基礎上進行的數(shù)據(jù)分析及理解。目前,不完備數(shù)據(jù)的聚類分析已成為模式識別的研究熱點之一,但現(xiàn)有算法大多只適用于相關性較弱的數(shù)據(jù)集,在子類重疊嚴重且相關性較強的數(shù)據(jù)集上難以得到理想的聚類結果?;诖?,本文從數(shù)據(jù)相關性角度出發(fā),將一致性作為相似性度量引入聚類分析,提出了多種不完備數(shù)據(jù)聚類方法。
  本研究主要內容包括:⑴針對不完備數(shù)據(jù)集中子類邊緣數(shù)據(jù)更易

2、錯分的問題,提出了基于一致性的邊緣數(shù)據(jù)重劃分方法。所提方法首先利用經典不完備數(shù)據(jù)聚類方法獲得初始聚類結果,在此基礎上依據(jù)近鄰原則,提出了一種可能誤判的邊緣數(shù)據(jù)篩選方法,并以一致性為相似性度量對這些數(shù)據(jù)的類屬進行修正。所提算法在對子類重疊嚴重區(qū)域即子類邊緣的數(shù)據(jù)進行重修劃分時,充分考慮了數(shù)據(jù)間的相關性,因此有利于將可能誤判的邊緣數(shù)據(jù)重新劃分到正確的子類中,進而提高不完備數(shù)據(jù)集的聚類精度。實驗結果表明,所提算法在子類重疊嚴重且相關性較強的人

3、工數(shù)據(jù)集和實際數(shù)據(jù)集上均能取得更優(yōu)的聚類效果。⑵基于偽相似性度量并考慮缺失屬性值的不確定性,提出了缺失屬性值的一致性偽近鄰區(qū)間描述,并在此基礎上實現(xiàn)對不完備數(shù)據(jù)集的聚類分析。方法通過一致性偽相似度尋找不完備樣本的近鄰,進而利用近鄰樣本的相應屬性值信息,獲得缺失屬性值的一致性偽近鄰區(qū)間描述,并將不完備數(shù)據(jù)集轉化為區(qū)間型數(shù)據(jù)集實現(xiàn)聚類分析。所提方法使用一致性偽相似度尋找近鄰關系,能夠直接從原始數(shù)據(jù)獲得屬性值分布信息。在利用區(qū)間型的描述充分體

4、現(xiàn)缺失屬性值的不確定性的同時,還能夠使得所選取的一致性偽近鄰樣本與不完備樣本中的完備屬性值體現(xiàn)出更相近的屬性特征。實驗結果表明,所提算法在子類重疊嚴重且相關性較強的人工數(shù)據(jù)集和實際數(shù)據(jù)集上均能取得良好的聚類效果。⑶進一步將數(shù)據(jù)集中樣本的分布信息引入聚類過程中,提出利用樣本加權改進PIC-FCM算法。方法通過樣本加權,通過削弱離群點對聚類的影響提高算法的聚類準確度,并通過加強與聚類中心更相似的樣本在計算聚類中心時的影響力,減少算法的迭代次

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論