版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、在網(wǎng)絡(luò)流量管理、金融數(shù)據(jù)分析、網(wǎng)站日志管理、視頻流版權(quán)保護(hù)等數(shù)據(jù)流應(yīng)用中,由于設(shè)備精度、噪音、干擾和隱私保護(hù)等問(wèn)題,數(shù)據(jù)流中往往包含著大量不確定性數(shù)據(jù),而這些不確定性對(duì)數(shù)據(jù)流的管理和挖掘帶來(lái)了挑戰(zhàn)。通過(guò)分析數(shù)據(jù)流的不確定性,可以降低不確定性對(duì)挖掘結(jié)果的影響,進(jìn)而提升數(shù)據(jù)流挖掘的質(zhì)量。
在針對(duì)不確定數(shù)據(jù)流的挖掘中,分析數(shù)據(jù)的不確定性特征對(duì)控制挖掘質(zhì)量尤為重要。在交通監(jiān)控、金融數(shù)據(jù)分析、網(wǎng)站監(jiān)控等包含大量對(duì)象的應(yīng)用中,數(shù)據(jù)對(duì)象的不
2、確定性,對(duì)計(jì)算對(duì)象間的相似度和對(duì)象聚類的質(zhì)量產(chǎn)生了很大的影響。而在對(duì)環(huán)境監(jiān)控、氣象監(jiān)測(cè)等數(shù)據(jù)流的在線聚類過(guò)程中,需要考慮數(shù)據(jù)元組的不確定性對(duì)微簇質(zhì)量的影響。在針對(duì)不確定數(shù)據(jù)流的頻繁模式挖掘中,需要根據(jù)不確定項(xiàng)集的概率頻繁程度和概率分布,反映不確定頻繁項(xiàng)集的頻次分布情況。在針對(duì)不確定數(shù)據(jù)的序列模式挖掘中,需要基于概率模型度量序列模式的概率頻繁程度,這就需要對(duì)現(xiàn)有的序列模式挖掘方法進(jìn)行擴(kuò)展,并提高概率序列模式的挖掘效率。
本論文旨
3、在通過(guò)對(duì)不確定數(shù)據(jù)概率特征進(jìn)行分析,以提高針對(duì)不確定數(shù)據(jù)流的聚類和模式挖掘的質(zhì)量。論文圍繞著基礎(chǔ)科研業(yè)務(wù)費(fèi)項(xiàng)目“基于概要模型的海量復(fù)雜時(shí)序數(shù)據(jù)分析方法研究”、自然基金項(xiàng)目“多核系統(tǒng)下調(diào)控模式識(shí)別的MapReduce模型及算法研究”和基礎(chǔ)科研業(yè)務(wù)費(fèi)項(xiàng)目“基于Sketch的不確定流數(shù)據(jù)管理關(guān)鍵技術(shù)研究”等課題,研究不確定數(shù)據(jù)流的挖掘。本文的研究?jī)?nèi)容主要針對(duì)不確定對(duì)象聚類、不確定數(shù)據(jù)流聚類、概率頻繁模式挖掘和概率頻繁序列模式挖掘四個(gè)方面,概括
4、為以下四個(gè)部分:
第一部分研究基于概要結(jié)構(gòu)的不確定對(duì)象聚類方法。針對(duì)現(xiàn)有的不確定聚類方法未考慮不確定對(duì)象的概率分布的問(wèn)題,分別在離散域和連續(xù)域上對(duì)不確定對(duì)象的概率分布進(jìn)行建模。為了使概率分布的提取更適合數(shù)據(jù)流環(huán)境,通過(guò)構(gòu)建概要數(shù)據(jù)模型以降低海量對(duì)象數(shù)據(jù)的規(guī)模。針對(duì)概要數(shù)據(jù),采用Kullback-Leibler散度計(jì)算不確定對(duì)象的相似度,并使用改進(jìn)的快速高斯變換提高了計(jì)算相似度的效率。在此基礎(chǔ)上,本文采用改進(jìn)的KL-散度作為相似
5、性度量,對(duì)現(xiàn)有的基于劃分的聚類算法分別進(jìn)行了擴(kuò)展,提出了基于概率分布相似性的KM-KL聚類算法。最后通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了該算法對(duì)聚類的質(zhì)量和效率的提升。
第二部分研究基于質(zhì)量度量的不確定數(shù)據(jù)流聚類方法。針對(duì)現(xiàn)有不確定數(shù)據(jù)流在線聚類方法,基于概率分布給出了微簇的質(zhì)量度量模型,并基于質(zhì)量度量構(gòu)建了描述微簇不確定性質(zhì)量的直方圖模型。在此基礎(chǔ)上,提出了一種基于質(zhì)量度量和時(shí)間劃分的在線微簇維護(hù)策略,通過(guò)將緩沖區(qū)按照質(zhì)量和時(shí)間區(qū)間進(jìn)行劃分,
6、根據(jù)微簇的質(zhì)量特征調(diào)整緩沖區(qū),以達(dá)到對(duì)微簇的質(zhì)量和成長(zhǎng)時(shí)間進(jìn)行細(xì)粒度控制的目的。并基于微簇維護(hù)策略,提出了一種基于質(zhì)量度量的不確定數(shù)據(jù)流聚類算法。同時(shí),針對(duì)高維不確定數(shù)據(jù)流,基于質(zhì)量度量和投影映射方法,將高維全空間投影到微簇相關(guān)的子空間中。在此基礎(chǔ)上,給出了在微簇相關(guān)子空間中的相似度計(jì)算公式,提出了一種基于子空間的高維空間中不確定數(shù)據(jù)流的聚類算法。最后通過(guò)分別與現(xiàn)有算法進(jìn)行實(shí)驗(yàn)比較,說(shuō)明了低維和高維聚類算法的準(zhǔn)確性和高效性。
7、第三部分研究基于Sketch的不確定數(shù)據(jù)流頻繁模式挖掘方法?;诳赡苁澜缒P兔枋鲱l繁模式的概率特征,通過(guò)將后綴支持度與Sketch相結(jié)合以優(yōu)化概率頻繁模式的挖掘方法。將概率頻繁模式挖掘分為兩個(gè)部分:面向支持度的頻繁模式挖掘和頻繁項(xiàng)的概率分布統(tǒng)計(jì)?;诤缶Y支持度,優(yōu)化了頻繁模式樹的構(gòu)建,提出了一種基于后綴支持度的頻繁模式挖掘算法。同時(shí),基于Sketch和滑動(dòng)窗口,統(tǒng)計(jì)項(xiàng)集的概率分布信息,并提出了一種面向不確定數(shù)據(jù)流的概率頻繁模式的挖掘策略
8、。同時(shí),基于概率分布信息,設(shè)計(jì)了頻繁模式的預(yù)測(cè)模型,提出了基于預(yù)測(cè)模型的剪枝算法。最后通過(guò)實(shí)驗(yàn)表明基于后綴支持度和預(yù)測(cè)剪枝的挖掘算法,能提高不確定數(shù)據(jù)流頻繁模式挖掘的效率和準(zhǔn)確性。
第四部分研究基于增長(zhǎng)模式的不確定序列模式挖掘方法。在分析序列級(jí)不確定數(shù)據(jù)模型特點(diǎn)的基礎(chǔ)上,闡述了概率序列模式的頻度測(cè)定方法。分析了現(xiàn)有的序列模式挖掘算法中的樹形存儲(chǔ)結(jié)構(gòu)的冗余性,通過(guò)對(duì)相同后綴進(jìn)行合并,基于有向無(wú)環(huán)圖提出了一種概率序列的存儲(chǔ)結(jié)構(gòu)PG
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向不確定數(shù)據(jù)流的聚類算法分析.pdf
- 面向不確定數(shù)據(jù)流的頻繁模式挖掘算法研究.pdf
- 不確定數(shù)據(jù)流中頻繁模式挖掘算法的研究.pdf
- 不確定數(shù)據(jù)流中頻繁數(shù)據(jù)挖掘研究.pdf
- 基于滑動(dòng)窗口的不確定數(shù)據(jù)流聚類算法研究.pdf
- 面向不確定進(jìn)化數(shù)據(jù)流聚類算法研究.pdf
- 不確定數(shù)據(jù)流環(huán)境下聚類算法的研究與實(shí)現(xiàn).pdf
- 一種不確定數(shù)據(jù)流聚類算法UStreamUKm.pdf
- 基于密度的不確定數(shù)據(jù)流聚類算法的研究與實(shí)現(xiàn).pdf
- 面向不確定數(shù)據(jù)的頻繁模式挖掘算法研究.pdf
- 面向不確定數(shù)據(jù)的頻繁模式挖掘方法研究.pdf
- 不確定數(shù)據(jù)流的分布并行Skyline查詢處理技術(shù)研究.pdf
- 基于概率密度網(wǎng)格結(jié)構(gòu)的不確定數(shù)據(jù)流聚類算法研究.pdf
- 面向數(shù)據(jù)流挖掘的分類和聚類算法研究.pdf
- 面向概率數(shù)據(jù)流的聚類技術(shù)研究
- 不確定數(shù)據(jù)聚類算法研究.pdf
- 不確定數(shù)據(jù)挖掘技術(shù)研究及應(yīng)用.pdf
- 不確定數(shù)據(jù)流數(shù)據(jù)庫(kù)系統(tǒng)的研究.pdf
- 不確定數(shù)據(jù)流查詢處理算法的研究.pdf
- 不確定數(shù)據(jù)頻繁模式挖掘算法研究.pdf
評(píng)論
0/150
提交評(píng)論