數(shù)據(jù)流聚類分析與異常檢測(cè)算法.pdf_第1頁(yè)
已閱讀1頁(yè),還剩123頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、數(shù)據(jù)流作為一種新型的數(shù)據(jù)模型,在許多應(yīng)用諸如網(wǎng)絡(luò)流量管理、金融數(shù)據(jù)處理、工業(yè)監(jiān)控、交通治理、網(wǎng)站信息的發(fā)布和訂閱、以及電子商務(wù)中都扮演著重要的角色。在數(shù)據(jù)流挖掘技術(shù)日益得到廣泛關(guān)注的今天,存在于數(shù)據(jù)中的不確定性問(wèn)題和多數(shù)流處理問(wèn)題給研究人員帶來(lái)了新的挑戰(zhàn):一方面,由于不確定數(shù)據(jù)流既要求保留數(shù)據(jù)流的無(wú)限,快速等特性,還需要利用有限的系統(tǒng)資源減少不確定性因素對(duì)挖掘過(guò)程造成的影響;另一方面,多數(shù)據(jù)流處理技術(shù)則要求不僅關(guān)注于一條數(shù)據(jù)流的流量變化

2、,同時(shí)還需要根據(jù)大量數(shù)據(jù)流之間的相關(guān)性與分布特征進(jìn)行分析處理,因此我們需要重新研究新的面向多數(shù)據(jù)流及不確定數(shù)據(jù)流的挖掘算法。學(xué)術(shù)界雖然已經(jīng)對(duì)數(shù)據(jù)流上的聚類分析與異常檢測(cè)問(wèn)題進(jìn)行了廣泛的研究,但仍存在許多問(wèn)題尚待解決。本文主要研究不確定數(shù)據(jù)流聚類分析算法和多數(shù)據(jù)流異常趨勢(shì)檢測(cè)問(wèn)題,旨在為現(xiàn)有的數(shù)據(jù)流系統(tǒng)提供更為多樣的聚類分析與異常檢測(cè)功能。同時(shí),還對(duì)每個(gè)所提出的技術(shù)及其相關(guān)工作進(jìn)行大量、深入的實(shí)驗(yàn)分析,實(shí)驗(yàn)結(jié)果都充分證明了所提出技術(shù)的有效

3、性和高效性。本文的主要貢獻(xiàn)體現(xiàn)在如下四個(gè)方面:
  本文提出了一種新的不確定數(shù)據(jù)流聚類算法(EMicro),用于在傳統(tǒng)的數(shù)據(jù)流聚類的基礎(chǔ)上解決數(shù)據(jù)不確定性給聚類過(guò)程造成的影響。首先它根據(jù)概率數(shù)據(jù)的特點(diǎn)定義了新的聚類標(biāo)準(zhǔn),使之能兼顧距離與概率雙重因素;然后根據(jù)新的聚類要求,提出了一種基于概率引力的元組分配策略;最后,為了有效的減少異常點(diǎn)對(duì)聚類結(jié)果的影響,我們提出了一套緩沖式異常點(diǎn)處理機(jī)制。
  本文提出了一種基于信息論的概率數(shù)

4、據(jù)流聚類算法(EnMicro),用于在信息熵的標(biāo)準(zhǔn)下重新實(shí)現(xiàn)聚類過(guò)程。首先它基于信息熵的概念定義了元組的不確定性,并通過(guò)其來(lái)反映數(shù)據(jù)質(zhì)量的好壞;然后通過(guò)新定義的元組不確定性標(biāo)準(zhǔn),提出了能夠兼顧時(shí)間與數(shù)據(jù)不確定性的混合衰減模型;最后,在新的不確定性標(biāo)準(zhǔn)和混合衰減模型的基礎(chǔ)上,提出了一種新的概率數(shù)據(jù)流聚類算法。
  本文提出了一套在多數(shù)據(jù)流情況下的異常趨勢(shì)檢測(cè)方法。首先,針對(duì)現(xiàn)有趨勢(shì)定義的不足之處,引入了一種適合數(shù)據(jù)流環(huán)境下的趨勢(shì)定義

5、,它的優(yōu)點(diǎn)在于其較低的時(shí)空復(fù)雜度;為了在趨勢(shì)計(jì)算過(guò)程中選擇合適的時(shí)間尺度,又提出了一種基于奇異值分解的選擇算法,同時(shí)給出了一種用于在線調(diào)整參數(shù)的概要數(shù)據(jù)結(jié)構(gòu);最后,當(dāng)關(guān)注重點(diǎn)由單數(shù)據(jù)流轉(zhuǎn)向多數(shù)據(jù)流時(shí),我們將基于多數(shù)據(jù)流的斜度統(tǒng)計(jì)值來(lái)監(jiān)控異常情況。
  本文實(shí)現(xiàn)了一套名為DiCAS的網(wǎng)絡(luò)數(shù)據(jù)流異常檢測(cè)系統(tǒng),它結(jié)合上海電信骨干網(wǎng)上的數(shù)據(jù)流量監(jiān)測(cè)需求,實(shí)現(xiàn)了對(duì)多數(shù)據(jù)流量的在線監(jiān)測(cè)。DiCAS系統(tǒng)采用降維分析算法對(duì)SNMP數(shù)據(jù)流進(jìn)行分析,

6、通過(guò)監(jiān)測(cè)網(wǎng)絡(luò)鏈路上不同流量數(shù)據(jù)的相關(guān)性變化來(lái)發(fā)現(xiàn)異常流量。模擬實(shí)驗(yàn)和在真實(shí)環(huán)境中的應(yīng)用表明,DiCAS系統(tǒng)能夠滿足骨干網(wǎng)流量監(jiān)測(cè)應(yīng)用的需要,并且極大地提高了監(jiān)測(cè)系統(tǒng)的實(shí)效性。綜上所述,本文設(shè)計(jì)了若干種異常檢測(cè)和聚類分析算法,并且將數(shù)據(jù)流模型與不確定數(shù)據(jù)類型相結(jié)合,是對(duì)現(xiàn)有數(shù)據(jù)流挖掘技術(shù)的有益補(bǔ)充和改進(jìn)。理論分析和實(shí)驗(yàn)結(jié)果均表明本文算法能夠高效地解決相應(yīng)問(wèn)題,與現(xiàn)有數(shù)據(jù)流處理方法相比,本文算法在存儲(chǔ)空間開(kāi)銷、挖掘處理速度以及結(jié)果準(zhǔn)確性上都

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論