版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、數(shù)據(jù)流應(yīng)用最早出現(xiàn)于傳統(tǒng)的銀行和股票交易等金融領(lǐng)域,后來則出現(xiàn)在天文觀測(cè)、交通、醫(yī)療、地質(zhì)測(cè)量、氣象等眾多領(lǐng)域。尤其是隨著無線通信網(wǎng)(通話記錄)和互聯(lián)網(wǎng)(網(wǎng)絡(luò)流量監(jiān)控,點(diǎn)擊流)的廣泛應(yīng)用,需要對(duì)數(shù)據(jù)流類型的數(shù)據(jù)進(jìn)行分析與挖掘。比如,數(shù)據(jù)流頻繁項(xiàng)技術(shù)及相關(guān)性分析技術(shù)可被應(yīng)用到智慧醫(yī)療和識(shí)別可疑洗錢行為的領(lǐng)域中,具有非常重要的應(yīng)用價(jià)值。而且,數(shù)據(jù)流頻繁項(xiàng)挖掘和相關(guān)性分析算法是眾多數(shù)據(jù)流挖掘技術(shù)的基礎(chǔ),因此具有非常重要的學(xué)術(shù)研究價(jià)值。
2、 數(shù)據(jù)流挖掘的常用技術(shù)主要有頻繁項(xiàng)(集)挖掘、相關(guān)性分析、分類分析、聚類分析、時(shí)序模式分析等。一般來說,數(shù)據(jù)流挖掘算法都試圖從兩個(gè)方面來研究:一是查詢響應(yīng)時(shí)間問題,即如何高效實(shí)時(shí)地處理數(shù)據(jù),以匹配數(shù)據(jù)流高速到達(dá)的特性。在技術(shù)層面上通過提出新的或者改進(jìn)已有的高效的數(shù)據(jù)結(jié)構(gòu)、有效的剪枝策略等來解決。二是壓縮存儲(chǔ)空間并保證高精度的查詢結(jié)果。在技術(shù)層面上通過構(gòu)造一個(gè)內(nèi)存占用少、并能提供近似結(jié)果的數(shù)據(jù)結(jié)構(gòu)以存放被壓縮的數(shù)據(jù)流數(shù)據(jù)。
綜
3、上分析,本文致力于解決數(shù)據(jù)流頻繁項(xiàng)發(fā)現(xiàn)及相關(guān)性分析問題中,如何更好的解決以上提出的兩大問題(提高查詢響應(yīng)時(shí)間和壓縮存儲(chǔ)數(shù)據(jù)所花費(fèi)空間)。在現(xiàn)有的數(shù)據(jù)流挖掘技術(shù)研究基礎(chǔ)上,以有效管理海量數(shù)據(jù)和提高查詢效率以及精確度為優(yōu)化目標(biāo),展開一系列能夠滿足實(shí)際應(yīng)用需要的挖掘技術(shù)研究;提出高效的數(shù)據(jù)流概要結(jié)構(gòu)和挖掘算法。本文研究主要包括以下內(nèi)容:
延遲教據(jù)流的頻繁項(xiàng)挖掘方法研究:所謂“延遲”即基于時(shí)間延遲模型。該模型考慮了不同時(shí)刻的數(shù)據(jù)的重要
4、性不同,即已到達(dá)的數(shù)據(jù)項(xiàng)的重要性隨時(shí)間逐漸衰減。為了提高查詢響應(yīng)時(shí)間,本文研究了一個(gè)可以在內(nèi)存維持的,并能保證高效地更新和檢索其中的信息的數(shù)據(jù)結(jié)構(gòu),從而提高數(shù)據(jù)流頻繁項(xiàng)挖掘算法的效率。此外,為了壓縮存儲(chǔ)數(shù)據(jù)所花費(fèi)空間,本文還設(shè)計(jì)了一種新的數(shù)據(jù)流概要結(jié)構(gòu),從而提高數(shù)據(jù)流頻繁項(xiàng)挖掘結(jié)果的準(zhǔn)確度。
數(shù)據(jù)流最熱項(xiàng)概念的提出及其查詢方法研究:針對(duì)不斷出現(xiàn)的多樣的查詢需求,例如,在促銷中,商戶希望找到巔峰銷售記錄,以宣傳其產(chǎn)品的受歡迎程度
5、,目前已有的數(shù)據(jù)流挖掘概念并不能適用于這一新的需求。因此,本文研究了一個(gè)自適應(yīng)可變滑動(dòng)窗口的數(shù)據(jù)流頻率問題——數(shù)據(jù)流最熱項(xiàng)問題。由于無法用現(xiàn)有的挖掘算法來解決數(shù)據(jù)流最熱項(xiàng)問題,因此,本文深入研究了實(shí)時(shí)挖掘數(shù)據(jù)流最熱項(xiàng)的算法。一是設(shè)計(jì)一個(gè)高效的數(shù)據(jù)結(jié)構(gòu)來存儲(chǔ)已到達(dá)的數(shù)據(jù)項(xiàng)的關(guān)鍵信息,使得可以在其上進(jìn)行數(shù)據(jù)流最熱項(xiàng)的挖掘,并且可以保證高效地存儲(chǔ)、更新和檢索其中的信息。二是,在該數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)上,設(shè)計(jì)幾種剪枝策略以提高實(shí)時(shí)查詢效率。
6、 數(shù)據(jù)流自適應(yīng)的延遲相關(guān)性分析方法研究:已有的延遲關(guān)聯(lián)分析主要集中在兩個(gè)方面,一是延遲關(guān)聯(lián)被計(jì)算在整個(gè)數(shù)據(jù)流上;二是,需要設(shè)置一個(gè)合適長度的滑動(dòng)窗口來計(jì)算延遲關(guān)聯(lián)性。然而,沒有一個(gè)最佳的窗口長度適用于所有的場(chǎng)景,因?yàn)楹线m的窗口長度取決于查詢、時(shí)間、數(shù)據(jù)和應(yīng)用領(lǐng)域等因素。因此,本文設(shè)計(jì)了一種滑動(dòng)窗口大小可自適應(yīng)調(diào)整的延遲相關(guān)性查詢。也就是,基于可變的滑動(dòng)窗口排序目標(biāo)數(shù)據(jù)流與給定的查詢數(shù)據(jù)流之間的延遲關(guān)聯(lián)關(guān)系。因此,本文開展研究了數(shù)據(jù)流自適
7、應(yīng)的延遲相關(guān)性分析算法。
本文首先研究了數(shù)據(jù)流中的數(shù)據(jù)項(xiàng)出現(xiàn)次數(shù)問題,也即數(shù)據(jù)流頻繁項(xiàng)挖掘方法的研究;接著將出現(xiàn)次數(shù)問題擴(kuò)展到出現(xiàn)頻率的問題,即提出了一種新的數(shù)據(jù)流挖掘概念-數(shù)據(jù)流最熱項(xiàng)問題及其查詢方法的研究;最后本文探究了數(shù)據(jù)流之間相關(guān)性分析的方法,研究了基于可變滑動(dòng)窗口的延遲相關(guān)性分析方法的研究。本文的研究還只是初步進(jìn)行了嘗試和探索,但是仍有許多的研究工作需要進(jìn)一步深入和開拓。比如研究適應(yīng)流速率變化的數(shù)據(jù)流的挖掘問題,利用
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 數(shù)據(jù)流頻繁項(xiàng)挖掘算法.pdf
- 數(shù)據(jù)流頻繁項(xiàng)集挖掘算法的研究.pdf
- 多數(shù)據(jù)流頻繁項(xiàng)集挖掘算法研究.pdf
- 數(shù)據(jù)流頻繁項(xiàng)挖掘算法研究與應(yīng)用.pdf
- 基于計(jì)數(shù)的數(shù)據(jù)流頻繁項(xiàng)挖掘算法研究.pdf
- 數(shù)據(jù)流頻繁閉項(xiàng)集挖掘算法研究.pdf
- 數(shù)據(jù)流頻繁項(xiàng)集挖掘研究.pdf
- 面向數(shù)據(jù)流的頻繁項(xiàng)集挖掘算法研究.pdf
- 基于數(shù)據(jù)流的頻繁項(xiàng)集挖掘算法研究.pdf
- 數(shù)據(jù)流最大頻繁項(xiàng)集挖掘算法的研究.pdf
- 在線挖掘數(shù)據(jù)流閉合頻繁項(xiàng)集算法的研究.pdf
- 數(shù)據(jù)流頻繁項(xiàng)挖掘與聚類分析的研究.pdf
- 基于時(shí)間窗口的數(shù)據(jù)流頻繁項(xiàng)挖掘算法.pdf
- 數(shù)據(jù)流中頻繁項(xiàng)集挖掘研究.pdf
- 數(shù)據(jù)流頻繁項(xiàng)挖掘與聚類分析的研究(1)
- 數(shù)據(jù)流頻繁項(xiàng)集挖掘系統(tǒng)的研究.pdf
- 數(shù)據(jù)流的頻繁模式挖掘算法研究.pdf
- 滑動(dòng)窗口中數(shù)據(jù)流頻繁項(xiàng)集挖掘算法研究.pdf
- 數(shù)據(jù)流頻繁模式挖掘算法的研究.pdf
- 數(shù)據(jù)流閉頻繁模式挖掘算法研究.pdf
評(píng)論
0/150
提交評(píng)論