并行化頻繁項集挖掘及其在數(shù)據(jù)流中的研究.pdf_第1頁
已閱讀1頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

1、頻繁模式挖掘是數(shù)據(jù)挖掘中的一項重要任務(wù),通過挖掘頻繁模式,我們可以發(fā)現(xiàn)隱藏在數(shù)據(jù)中的有趣的相關(guān)和關(guān)聯(lián)。頻繁項集的挖掘作為頻繁模式挖掘中的一類,它可以廣泛應(yīng)用在關(guān)聯(lián)規(guī)則挖掘、聚類、分類和預(yù)測、入侵檢測、相關(guān)性分析等等許多種數(shù)據(jù)挖掘任務(wù)中。
   由于數(shù)據(jù)挖掘在開始被提出時就是面向海量數(shù)據(jù)的,龐大的搜索空間使得許多傳統(tǒng)的數(shù)據(jù)挖掘算法的效率并不理想。高性能并行環(huán)境為數(shù)據(jù)挖掘的發(fā)展開辟了一條新的路徑,研究并行環(huán)境下的數(shù)據(jù)挖掘并行算法成為

2、了數(shù)據(jù)挖掘界的熱點。頻繁項集挖掘也不例外,經(jīng)過這些年的研究,并行化的頻繁項集挖掘算法已經(jīng)取得了一些成果。
   本文提出了一種基于分布式并行環(huán)境的頻繁項集挖掘算法HPFP-Miner。HPFP-Miner算法是一種類FP-Growth算法,通過將數(shù)據(jù)庫壓縮到一個數(shù)據(jù)結(jié)構(gòu)上進行挖掘。算法利用兩次數(shù)據(jù)庫掃描,在各并行結(jié)點上建立HPFP-tree和HPFP-forest。各節(jié)點只需要挖掘本地HPFP-tree,最后將挖掘結(jié)果統(tǒng)一到一個

3、共享文件中。通訊集中在建樹階段,整個挖掘過程不需要節(jié)點間的同步,大大減少了通訊量,提高了算法的效率。
   由于數(shù)據(jù)流在日常生活中的廣泛應(yīng)用,數(shù)據(jù)流頻繁項集挖掘受到了人們的關(guān)注。數(shù)據(jù)流有著快速變化的、海量的和無限的等特點,必須建立新的數(shù)據(jù)結(jié)構(gòu)和算法對其進行挖掘。本文在上述算法的基礎(chǔ)上,提出了基于滑動窗口的并行化的數(shù)據(jù)流頻繁項集挖掘算法PFIMSD算法。算法僅通過一次掃描將當(dāng)前窗口的所有數(shù)據(jù)壓縮到并行節(jié)點上的PSD-tree上,窗

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論