版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、時(shí)間序列是一種廣泛存在的數(shù)據(jù),客觀記錄了所觀測(cè)的系統(tǒng)在各個(gè)時(shí)刻點(diǎn)的具體值,所以可以通過(guò)研究時(shí)間序列數(shù)據(jù)來(lái)辨識(shí)和重構(gòu)所觀測(cè)系統(tǒng)的動(dòng)力學(xué)行為。早期的研究方法是基于統(tǒng)計(jì)學(xué)知識(shí)的,主張?jiān)跐M(mǎn)足某種假設(shè)的前提下用解析函數(shù)來(lái)對(duì)時(shí)間序列進(jìn)行全局建模。但是時(shí)間序列往往都含有大量噪聲和復(fù)雜結(jié)構(gòu),導(dǎo)致解析函數(shù)的建模變得非常困難。因此,需要一種研究方法能夠充分利用時(shí)間序列數(shù)據(jù)發(fā)掘其背后隱含的規(guī)律和知識(shí)。
在這種需求的促進(jìn)下,基于數(shù)據(jù)挖掘技術(shù)的時(shí)間序列
2、數(shù)據(jù)研究方法就應(yīng)運(yùn)而生了。數(shù)據(jù)挖掘是一個(gè)十分活躍和具有研究前景的領(lǐng)域,為時(shí)間序列分析提供了新思路和視野。由于所研究的真實(shí)系統(tǒng)或現(xiàn)象的內(nèi)部往往受到多個(gè)因素的綜合作用,從而導(dǎo)致作為其輸出的時(shí)間序列具有許多復(fù)雜性的表現(xiàn):維度高、海量性、結(jié)構(gòu)復(fù)雜、存在噪聲、存在相似性變形(不精確匹配)等等。這些固有的特性使時(shí)間序列數(shù)據(jù)挖掘研究充滿(mǎn)了挑戰(zhàn)。盡管?chē)?guó)內(nèi)外研究者在時(shí)間序列挖掘上已經(jīng)取得了許多研究成果,但依然存在很多亟待解決的關(guān)鍵問(wèn)題。
本論文
3、對(duì)時(shí)間序列數(shù)據(jù)挖掘技術(shù)中的近似表示方法、相似性度量方法和時(shí)間序列聚類(lèi)等技術(shù)面臨的關(guān)鍵問(wèn)題進(jìn)行了深入研究,其主要研究?jī)?nèi)容如下:
第一,針對(duì)現(xiàn)有近似表示方法所面臨的維度約簡(jiǎn)會(huì)丟失基本信息、算法參數(shù)需要精調(diào)的問(wèn)題,本文提出了一種無(wú)參的符號(hào)化近似表示模型NSAR(Nonparametric Symbolic Approximate Representation)。針對(duì)以往近似表示在實(shí)現(xiàn)維度約簡(jiǎn)的同時(shí)會(huì)丟失基本信息的問(wèn)題,NSAR主要采
4、用符號(hào)化編碼技術(shù)實(shí)現(xiàn)維度的極大約簡(jiǎn),同時(shí)采用了提取多尺度離散小波近似系數(shù)和關(guān)鍵點(diǎn)來(lái)保留原始序列的基本特征信息。針對(duì)現(xiàn)有的絕大多數(shù)近似表示方法面臨需要精調(diào)參數(shù)的難點(diǎn),NSAR在設(shè)計(jì)時(shí)從三個(gè)方面實(shí)現(xiàn)了無(wú)參化:小波分解尺度log2 n是由序列長(zhǎng)度確定的;關(guān)鍵點(diǎn)提取在濾除噪聲后的小波近似系數(shù)上進(jìn)行,不用設(shè)置閾值篩選;對(duì)關(guān)鍵點(diǎn)序列進(jìn)行符號(hào)化,自動(dòng)決定出只需要2個(gè)符號(hào)來(lái)表示上升,下降趨勢(shì)。實(shí)驗(yàn)結(jié)果表明,NSAR能夠有效解決上述兩個(gè)問(wèn)題,可以實(shí)現(xiàn)維度
5、極大約簡(jiǎn)的同時(shí)保留住原始時(shí)間序列的基本信息,并且是無(wú)參。
第二,針對(duì)現(xiàn)有的相似性度量方法只能容忍一兩種輕微的相似性變形,本文設(shè)計(jì)了一種基于形狀信息的肘間序列相似性度量方法SIMshape(SIMilaritymeasure based shape information)。不同于現(xiàn)有的相似性度量方法在相似性比較時(shí)不加區(qū)別的對(duì)待序列所有信息,SIMshape在相似性判斷時(shí)更側(cè)重序列基本形狀的對(duì)比,弱化細(xì)節(jié)信息的影響,以充分考慮相
6、似性變形只會(huì)影響細(xì)節(jié)信息,不會(huì)改變序列基本形狀的特性。SIMshape的實(shí)現(xiàn)是在序列的多尺度形狀信息上進(jìn)行,同時(shí)設(shè)計(jì)了尺度權(quán)值函數(shù)賦予較粗尺度大權(quán)值,較細(xì)尺度上小權(quán)值來(lái)進(jìn)一步減弱相似性變形對(duì)相似性判斷的干擾。實(shí)驗(yàn)結(jié)果表明SIMshape可以容忍更多的相似性變形。
第三,針對(duì)現(xiàn)有的時(shí)間序列聚類(lèi)過(guò)程中缺乏自發(fā)性、聚類(lèi)質(zhì)量較差的問(wèn)題,本文提出了一種基于全局結(jié)構(gòu)特征和核力場(chǎng)的時(shí)間序列聚類(lèi)。針對(duì)現(xiàn)有的聚類(lèi)方法需要人為指定閾值完成對(duì)聚類(lèi)對(duì)
7、象,缺乏自發(fā)性的問(wèn)題,新的聚類(lèi)方法選取了核力為聚類(lèi)的一種新標(biāo)準(zhǔn),利用物理粒子相互作用的核力,來(lái)產(chǎn)生自發(fā)的相向運(yùn)動(dòng)反映數(shù)據(jù)對(duì)象之間的天然聚散關(guān)系,從而可以依據(jù)數(shù)據(jù)對(duì)象間的自組織聚集特性找出類(lèi)結(jié)構(gòu),減少了聚類(lèi)過(guò)程中的人為因素。針對(duì)現(xiàn)有的時(shí)間序列聚類(lèi)質(zhì)量較差的問(wèn)題,新的聚類(lèi)方法利用信息熵的方法找出有助于呈現(xiàn)聚類(lèi)結(jié)構(gòu)的全局特征,從而使得后續(xù)的算法更容易發(fā)現(xiàn)真實(shí)的類(lèi)簇。相關(guān)實(shí)驗(yàn)結(jié)果表明提出的時(shí)間聚類(lèi)方法可以自發(fā)的找出數(shù)據(jù)的真實(shí)聚類(lèi),并且可以容忍一
8、定程度的時(shí)間序列不等長(zhǎng),不易受到噪聲和缺失點(diǎn)的影響。
本文從三個(gè)方面進(jìn)行研究來(lái)提高時(shí)間序列數(shù)據(jù)挖掘的性能,即:通過(guò)建立非參數(shù)符號(hào)化近似表示模型NSAR來(lái)減少基本信息丟失和實(shí)現(xiàn)無(wú)參化設(shè)計(jì);通過(guò)建立形狀相似性度量SIMshape來(lái)提高相似性度量方法對(duì)相似性變形的容忍力;根據(jù)全局特征和基于核力場(chǎng)的動(dòng)態(tài)聚類(lèi)來(lái)實(shí)現(xiàn)時(shí)間序列自發(fā)的聚類(lèi)。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在時(shí)間序列數(shù)據(jù)挖掘上具有更好的相似性檢索性能,可有效降低時(shí)間序列最近鄰分類(lèi)誤
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于特征分析的金融時(shí)間序列挖掘若干關(guān)鍵問(wèn)題研究.pdf
- 時(shí)間序列數(shù)據(jù)挖掘中的若干問(wèn)題研究.pdf
- 高維數(shù)據(jù)挖掘中若干關(guān)鍵問(wèn)題的研究.pdf
- 并行序列模式挖掘關(guān)鍵問(wèn)題研究.pdf
- 生物信息數(shù)據(jù)挖掘若干關(guān)鍵問(wèn)題研究與應(yīng)用.pdf
- 基于重標(biāo)極差分析理論的時(shí)間序列數(shù)據(jù)挖掘的關(guān)鍵問(wèn)題的研究.pdf
- 意見(jiàn)挖掘中若干關(guān)鍵問(wèn)題研究.pdf
- Web使用挖掘若干關(guān)鍵問(wèn)題研究.pdf
- 文本挖掘中若干關(guān)鍵問(wèn)題的研究.pdf
- 金融時(shí)間序列數(shù)據(jù)挖掘關(guān)鍵算法研究.pdf
- 時(shí)間序列數(shù)據(jù)挖掘研究.pdf
- 數(shù)據(jù)空間中數(shù)據(jù)集成若干關(guān)鍵問(wèn)題研究.pdf
- 文本語(yǔ)義分析與挖掘的若干關(guān)鍵問(wèn)題研究.pdf
- 閃存數(shù)據(jù)庫(kù)若干關(guān)鍵問(wèn)題研究.pdf
- 時(shí)間序列數(shù)據(jù)挖掘方法研究.pdf
- 時(shí)間序列的數(shù)據(jù)挖掘研究.pdf
- 生物學(xué)數(shù)據(jù)集成若干關(guān)鍵問(wèn)題研究.pdf
- 基于特征的觀點(diǎn)挖掘中的若干關(guān)鍵問(wèn)題研究.pdf
- 面向證券應(yīng)用的WEB主題觀點(diǎn)挖掘若干關(guān)鍵問(wèn)題研究.pdf
- 物流領(lǐng)域若干關(guān)鍵問(wèn)題研究.pdf
評(píng)論
0/150
提交評(píng)論