時間序列分析技術(shù)的研究(英文版).pdf_第1頁
已閱讀1頁,還剩125頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘是對觀測數(shù)據(jù)集的分析,以便找到對應(yīng)模型并且用新的更容易理解和使用的方式總結(jié)數(shù)據(jù)。以時間順序抵達(dá)的數(shù)據(jù),在許多其他的領(lǐng)域都有出現(xiàn),如物理學(xué),金融學(xué),醫(yī)學(xué)和音樂等。時間序列是一個重要的時態(tài)數(shù)據(jù)對象種類,并且它們很容易從金融領(lǐng)域和科學(xué)應(yīng)用中獲得。為了獲得有意義的數(shù)據(jù)和其他的數(shù)據(jù)特征,時序分析由分析時序數(shù)據(jù)的方法和技術(shù)組成。考慮到時序數(shù)據(jù)的廣泛出現(xiàn),還有數(shù)據(jù)庫一般呈指數(shù)級增長,時序數(shù)據(jù)挖掘目前成為了一個倍受關(guān)注的領(lǐng)域。因為在各種各樣的設(shè)

2、置中,大規(guī)模的時序數(shù)據(jù)集更為普遍,本文面臨著開發(fā)有效分析方法的重大挑戰(zhàn)。本文的作者旨在解決這些問題,即為時序分析設(shè)計快速的可擴(kuò)展的算法。
   在大規(guī)模數(shù)據(jù)中,時序分析研究中諸如預(yù)處理和為預(yù)測目標(biāo)轉(zhuǎn)換數(shù)據(jù)的工作具有重要意義并且也是普遍做法。如果數(shù)據(jù)特別是時序數(shù)據(jù)能被預(yù)處理,那么可以提高效率并且解決挖掘和發(fā)現(xiàn)過程中的困境?,F(xiàn)在大量的數(shù)據(jù)預(yù)處理技術(shù),為了去除噪聲并且糾正數(shù)據(jù)中的不一致,就要用到數(shù)據(jù)清理技術(shù);為了把多源數(shù)據(jù)合并成為一個

3、連貫的數(shù)據(jù)倉庫,就要用到集成技術(shù);為了標(biāo)準(zhǔn)化數(shù)據(jù),就要用到轉(zhuǎn)換技術(shù)。數(shù)據(jù)壓縮在時序分析的預(yù)處理階段是一個很有意義的技術(shù),它可以通過聚集,消除冗余成分來減小數(shù)據(jù)規(guī)模。一般來說,時序預(yù)測是一個觀測值序列。時序預(yù)測表明以時間順序,過去可以在多大程度上決定未來。一個通過確定的線性過程生成的時間序列具有較高的可預(yù)測性,并且它的未來值能被過去值很準(zhǔn)確的預(yù)測到。一個不相關(guān)的過程生成的時間序列具有較低的可預(yù)測性,并且它的過去值只能為未來值提供一個統(tǒng)計特

4、征。
   之前的一些用來挖掘和發(fā)現(xiàn)時序的技術(shù),如時序聚類,分類,預(yù)測和其他金融領(lǐng)域的應(yīng)用也被引用到了本文中。簡單地說,本文的主要目標(biāo)是時序數(shù)據(jù)挖掘技術(shù)的研究,有如下方面:(1)數(shù)據(jù)預(yù)處理如降維,(2)時序數(shù)據(jù)的短期預(yù)測,這一過程被稱為趨勢分析,(3)未來值的預(yù)測,在具有大量數(shù)據(jù)流環(huán)境中,訓(xùn)練和檢測歷史樣本,(4)時序分析的商業(yè)智能模型。其中的每一項研究都提供了實驗評估和分析來驗證這種方法的有效性。
   具體來說,本文

5、主要有如下四點(diǎn)貢獻(xiàn):
   第一,本文中我們提出了數(shù)據(jù)預(yù)處理方法來降低時間序列的維度,與原數(shù)據(jù)相比仍保持形狀。這種方法是基于時間序列中轉(zhuǎn)折點(diǎn)的想法,而這些點(diǎn)被定義為時間序列數(shù)據(jù)趨勢的改變。時間序列中的轉(zhuǎn)折點(diǎn)被定義為分隔兩個相鄰趨勢的點(diǎn),并且在公告的發(fā)布時間中具有最短的距離。只有一些臨界點(diǎn)被保留下來了,而那些被認(rèn)為是干擾因子的臨界點(diǎn)被移除了。這種方法只考慮特定時間內(nèi)各個時序的臨界點(diǎn),以便減小數(shù)據(jù)規(guī)模,去除冗余成分。當(dāng)這種數(shù)據(jù)預(yù)處理

6、方法,被在挖掘過程之前使用時,顯著地改進(jìn)了模式挖掘的總體質(zhì)量和實際挖掘所需的時間。所有的降維技術(shù)對大數(shù)據(jù)集的預(yù)處理都非常有意義,然后可以用它來分析和發(fā)現(xiàn)信息。第一個貢獻(xiàn)提出了一種方法,其建立在轉(zhuǎn)折點(diǎn)來減少時間序列數(shù)據(jù)維度之上,這項工作使得在數(shù)據(jù)流環(huán)境中,預(yù)測過程更加快速。這項貢獻(xiàn)專注于轉(zhuǎn)折點(diǎn),這些點(diǎn)提取自時間序列數(shù)據(jù)中的最大或最小值點(diǎn),證明對于在時間序列分析中預(yù)處理數(shù)據(jù)過程中更加高效。一個時間序列包含一系列局部的最大或者最小點(diǎn),并且其中

7、一些反映出了數(shù)據(jù)信息趨勢的逆轉(zhuǎn)。這些局部最大和最小點(diǎn)被稱為臨界點(diǎn);換個說話,我們可以說一個時間序列是由一系列臨界點(diǎn)組成的。這些臨界點(diǎn)通常被稱為轉(zhuǎn)折點(diǎn),因為它們顯現(xiàn)出了時間序列數(shù)據(jù)趨勢的變化。在這種方法中,轉(zhuǎn)折點(diǎn)廣泛地被用在數(shù)據(jù)挖掘分析領(lǐng)域中,因為它們比其他點(diǎn)包括更多的信息。轉(zhuǎn)折點(diǎn)描述了時間序列趨勢的變化并且他們能被用來識別事務(wù)周期的開始與結(jié)束。我們認(rèn)為在時間序列Ti={ti,t2…,tn}中,轉(zhuǎn)折點(diǎn)ti是一個在兩種情況下都被注明的點(diǎn)。第

8、一種情況是,如果那個點(diǎn)在ti處結(jié)束上升的趨勢并且開始一個下降的周期。在這種方法中,我們只考慮特定時期內(nèi)各個時間序列的關(guān)鍵點(diǎn)。時間序列中的轉(zhuǎn)折點(diǎn)被定義為分隔兩個相鄰趨勢的點(diǎn),并且在公告的發(fā)布時間中具有最短的距離。在構(gòu)造初始臨界點(diǎn)數(shù)列Ti'后,一個臨界點(diǎn)挑選標(biāo)準(zhǔn)被應(yīng)用來過濾掉對應(yīng)噪聲的臨界點(diǎn)。時間序列Ti和Ti'分別被稱為原始數(shù)列和預(yù)處理之后得出的數(shù)列。我們認(rèn)為原始時間序列Ti中第一個和最后一個數(shù)據(jù)點(diǎn)被保留為Ti'中的第一個和最后一個點(diǎn)。挑

9、選的方向是基于波動函數(shù)λv和時間持續(xù)閾值λt。我們方法中的時間持續(xù)閾值λt是5個連續(xù)的點(diǎn)。在一個多元時間序列環(huán)境中,對于一個給定的序列Tij={ti1,ti2,tim},序列中的一個轉(zhuǎn)折點(diǎn)(波峰或者波谷)被定義為任一時間周期j的第i股流,這是在考慮了波動和時間持續(xù)的特定閾值之后,時間序列觀測中下降或者上升的變化。一個點(diǎn)處于上升還是下降的趨勢中是不確定的。為了使用更少的時間和內(nèi)存來完成,在本文中,我們根據(jù)轉(zhuǎn)折點(diǎn)提出了有六種情況的三個策略來

10、做排除。在每種策略中,選中還是排除的選擇權(quán)取決于參數(shù)λv和時間閾值λt。這意味著我們考慮了時間流環(huán)境中,每個時間序列中數(shù)據(jù)波動和時間持續(xù)的特殊性。為了保證轉(zhuǎn)折點(diǎn)的觀測中時間和值的變化,我們用一個步長范圍來排除不重要的點(diǎn)。為了避免產(chǎn)生一個錯誤的轉(zhuǎn)折點(diǎn)(即那些處于上升或下降趨勢中的點(diǎn)),而識別一個真正的轉(zhuǎn)折點(diǎn),我們的策略是之前識別的轉(zhuǎn)折點(diǎn)與現(xiàn)在這個點(diǎn)是相對的。這意味著一個波峰后必須緊跟一個波谷,并且它們之間沒有其他的波峰了。這項工作已經(jīng)通過

11、降低大的歷史數(shù)據(jù)的維度并且使用數(shù)據(jù)挖掘技術(shù)計算未來值的方法,解決了時間序列預(yù)測的問題。在采用了基于這種轉(zhuǎn)折點(diǎn)處理的降維方法后,我們方法生成的時間序列仍然保持了原始數(shù)據(jù)趨勢的形狀。提出的這種方法對于大的數(shù)據(jù)集處理是非常有效的。
   第二,本文中的第二個貢獻(xiàn)是時間序列趨勢分析方法,它的功能是一個短期預(yù)測,這與領(lǐng)先一步預(yù)測(one-day-ahead)有關(guān)。組合方法的結(jié)果是預(yù)測值,通過交易規(guī)則這個預(yù)測值能被用來做決策。在這項工作中,

12、聚類是第一個把數(shù)據(jù)聚集成簇的步驟,因此同一個簇中的所包含的對象之間的相似度要大于與另一個簇中的對象之間的相似度。之后,我們考慮數(shù)據(jù)的分類步驟,其中分類器被構(gòu)造來預(yù)測趨勢標(biāo)簽,比如金融數(shù)據(jù)中的“上升趨勢”,“非趨勢中”,“下降趨勢”。預(yù)測趨勢實現(xiàn)中的分類過程包裹兩個子過程:即學(xué)習(xí)和分類。學(xué)習(xí)過程通過支持向量機(jī)(SVM)來分析數(shù)據(jù)并且學(xué)習(xí)分類器是以分類規(guī)則的形式描述的。然后下一個估算測試集準(zhǔn)確度的子過程取決于分類規(guī)則。在準(zhǔn)確度被測為合適的情

13、況下,規(guī)則可以被應(yīng)用來對新的未來值分類。詳細(xì)來說,這項貢獻(xiàn)中我們提出了一個新的技術(shù),它是基于交易規(guī)則被用在有監(jiān)督的和無監(jiān)督的機(jī)器學(xué)習(xí)算法中來預(yù)測金融時間序列的趨勢。這種方法是利用聚集數(shù)據(jù)組之間相似性的K-Means和用來訓(xùn)練和測試歷史數(shù)據(jù)來執(zhí)行領(lǐng)先一步趨勢預(yù)測的支持向量機(jī)分類。為了保證這種方法的效率,我們比較傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)和單獨(dú)的支持向量機(jī)結(jié)果。為了完成實驗,我們收集了來自金融事件序列網(wǎng)站的數(shù)據(jù)并且過濾數(shù)據(jù),然后我們提取出了股票時間

14、流的指示器。在這種情況下,我們使用了指數(shù)加權(quán)法(EMA)作為指示函數(shù)。而作出這種選擇的原因是EMA可以很好地折衷過度敏感的加權(quán)移動平均數(shù)和過慢的簡單移動平均數(shù)。預(yù)測趨勢階段的詳細(xì)過程為,我們結(jié)合K-Means算法聚類與SVM訓(xùn)練樣本來實現(xiàn)該方法。組合方法的結(jié)果通過預(yù)先確定的交易規(guī)則將被用來做決策。這種組合方法的想法利用了K-SVMeans的優(yōu)點(diǎn),這是一個對于多重屬性相關(guān)數(shù)據(jù)集的聚類算法,它結(jié)合了K-Means聚類和SVM。K-SVMea

15、ns是一個對于不同數(shù)據(jù)集的K-Means聚類算法,其中伴有一種數(shù)據(jù)類型的聚類在另一種類型中學(xué)習(xí)一種分類器,并且這個分類器影響聚類器的聚類決策。我們選擇K-Means算法作為這個方法的一部分是因為這個算法是一個著名的非層次聚類算法并且需要使用者分配存在于數(shù)據(jù)集中的聚類的個數(shù)。K-Means算法將會為每個具有相同屬性的聚類采集訓(xùn)練數(shù)據(jù)的樣本。對于每個聚類,我們根據(jù)BRF核函數(shù),用正規(guī)化參數(shù)C,(使用交叉驗證)訓(xùn)練子集。通常,數(shù)據(jù)分類分為學(xué)習(xí)

16、階段和分類階段。在我們的學(xué)習(xí)階段,通過一個分類算法來分析訓(xùn)練數(shù)據(jù)集。這時,種類的標(biāo)簽屬性被用來做決策,并且學(xué)習(xí)模型(分類器)以分類規(guī)則的形式呈現(xiàn)。在我們的分類階段,測試數(shù)據(jù)被用來估算分類規(guī)則的準(zhǔn)確性。如果準(zhǔn)確性可以被接受了,那么這個規(guī)則可以被用來對新的數(shù)據(jù)進(jìn)行分類。此外,為了使訓(xùn)練過程更加快速,我們對多類分類SVM選擇“one againstone”策略。順便指出一個N種分類的問題,N(N-1)/2個支持向量機(jī)被訓(xùn)練來從另一個種類的所用

17、樣本中辨別一個種類的樣本。用這種方法,根據(jù)最大值表決,一種未知模式的分類被使用,其中每個SVM支持一種分類。我們的方法預(yù)測趨勢并且輸出對應(yīng)的分類標(biāo)簽值。用SVM完成訓(xùn)練和測試樣本需要五個步驟。第一步,我們要考慮輸出參數(shù),包括核參數(shù)γ,正規(guī)化參數(shù)C,還有聚類個數(shù)K。第二步是運(yùn)行K-Means聚類算法,這個算法運(yùn)行在原始數(shù)據(jù)上并且所有的聚類中心被認(rèn)為用來構(gòu)造分類器。第三步,以聚類的數(shù)據(jù)為基礎(chǔ)來構(gòu)建SVM分類器。第四步是通過啟發(fā)式搜索策略調(diào)整

18、輸入函數(shù)。第五步是測試準(zhǔn)確性和反應(yīng)時間,如果組合方法能被接受那么第五步停止;否則這個算法將會返回第一步來測試輸入?yún)?shù)新的組合。這項工作研究了時間序列趨勢分析在有監(jiān)督和無監(jiān)督學(xué)習(xí)機(jī)中的問題。使用這種組合技術(shù),提出了一個針對趨勢預(yù)測問題,結(jié)合K-Means聚類算法和SVM訓(xùn)練算法的方法??傊?,這種方法使用K-Means算法對輸入數(shù)據(jù)聚類;然后從每個聚類訓(xùn)練SVM分類,這種方法預(yù)測一個時間序列趨勢特別是進(jìn)入那個數(shù)據(jù)分析的輸出結(jié)果。這種情況下,

19、趨勢是上升的但是預(yù)測值是下降的,我們成為預(yù)測錯誤,反之亦然。這種模型的準(zhǔn)確度被定義為準(zhǔn)確分類樣本數(shù)量與總的樣本數(shù)量的百分比。這個實驗結(jié)果證明提出的組合方法相較于其他方法具有較高的準(zhǔn)確性。
   第三,本文的下一個貢獻(xiàn)是預(yù)測未來值的方法,而其取決于在多重時間序列環(huán)境中的歷史值。我們認(rèn)為這是程序研究中重要的組成部分,因為這些數(shù)據(jù)結(jié)果常常為決策理論模型提供基礎(chǔ)。模擬時間序列數(shù)據(jù)是一個統(tǒng)計問題;并且時間序列預(yù)測技術(shù)已經(jīng)被應(yīng)用到了許多真實

20、世界應(yīng)用中。預(yù)測技術(shù)用于計算過程中估算一個模型的參數(shù),這個模型被用來分配有限的資源或者來描述如上面提到的隨機(jī)過程。在本文中也提到了多重時間序列環(huán)境的時間序列預(yù)測分析問題。在學(xué)習(xí)機(jī)方法中,能被用于回歸分析的支持向量機(jī)被稱為支持向量回歸機(jī),支持向量回歸機(jī)已成功地被應(yīng)用于時間序列流分析,但是它的優(yōu)化算法通常是由二次最優(yōu)化包組成的。在兩次最優(yōu)化的大量數(shù)據(jù)集中,基于支持向量機(jī)算法的順序最優(yōu)算法可以提高操作速度并且減低較長的運(yùn)行時間。這項貢獻(xiàn)的詳細(xì)

21、描述如下,假設(shè)數(shù)據(jù)流中我們有n個時間序列{T1,T2,…,Tn},在當(dāng)前的時間戳(m-1)每個Ti包括m個有序值,也就是說,Ti={ti0,ti1,…,ti(m-1)}其中tij是在Ti中時間戳j的值。假設(shè)n股時間序列流只接收F時間戳后的數(shù)據(jù)。換而言之,對于每一個時間序列Ti,未來值tim,tim,ti(m+1),ti(m+2),…,和ti(m+F-1)分別匹配時間戳m,(m+1),(m+2)…,和(m+F-1),以批量形式到達(dá)同一時間

22、戳(m+F)。時間戳由m到(m+F)的階段,系統(tǒng)不知道F在每個時間序列中的未來值。這個方法的目標(biāo)是要為n次時間序列流有效地預(yù)測n.F值,并且預(yù)測錯誤要盡可能的低而且準(zhǔn)確度要盡可能的高。為了比較多重時間序列中的統(tǒng)計方法,在這一部分中,線性回歸模型被用來表示時間序列數(shù)據(jù)流,一個時間序列集{T1,T2…,Tn}其中Ti={ti0,ti1,ti2…ti(m-1)}i<=n。對于數(shù)據(jù)流的每個時間序列,我們假設(shè)歷史值集{ti0,ti1,ti2…ti

23、H}為因變量,預(yù)測值是線性回歸模型的獨(dú)立值。如果獨(dú)立值是已知的,那么應(yīng)用這個定義我們預(yù)測獨(dú)立變量的均值。線性回歸實現(xiàn)了一個統(tǒng)計模型,當(dāng)獨(dú)立變量和因變量差不多是線性關(guān)系的時候,這個模型給出了最優(yōu)解。另一個我們選擇線性回歸來解釋我們的方法的原因是因為線性回歸是一個簡單回歸分析,它能較好地用來預(yù)測數(shù)值型的輸出。此外,在多重時間序列環(huán)境中,如果每個時間序列都在主存中輸入他們各自的核心矩陣,那么主存將會溢出。我們采用這個算法是因為使用基于SVM的

24、序列最小最優(yōu)化算法(SMO)只迭代調(diào)用核心矩陣,因而執(zhí)行過程得到了改善。對于大的數(shù)據(jù)集,SVM的執(zhí)行速度變慢了,以便我們挑選SMO來得到更好的執(zhí)行時間和未來數(shù)據(jù)的精確度。SMO是一個來解決SVM最優(yōu)化問題的迭代算法。SMO算法把問題分解成一系列最小可能的子問題,而這些問題能被分解得解決。由于線性等式約束涉及到拉格朗日乘數(shù),最小可能問題包括兩個這樣的乘數(shù)。對于在多重時間序列中的每個對象,SMO反復(fù)執(zhí)行這兩個步驟。對于我們方法中的每個時間序

25、列,算法的第一步是找到一個拉格朗日乘數(shù)α。第二步是挑選一個次要的乘數(shù)α*并且優(yōu)化對(α,α*)。這個算法將會重復(fù)上面的這兩個步驟直到收斂。當(dāng)所有的拉格朗日乘數(shù)滿足了卡羅需-庫恩-塔克條件(KKT,一個自定義的耐受值),那么這個問題就被解決了。雖然這個算法保證是收斂的,但是為了加快收斂速度,我們使用了啟發(fā)式算法來挑選乘數(shù)對。為了挑選拉格朗日乘數(shù)來優(yōu)化,我們選取了第一種使用SMO算法的外部循環(huán)的拉格朗日乘數(shù)。外部循環(huán)首先在無邊界的訓(xùn)練子集中

26、進(jìn)行迭代。如果某個樣本違背了KKT條件,那么它就可以立即被優(yōu)化。如果不存在這樣的樣本集,那么就在整個訓(xùn)練集中進(jìn)行迭代。如果找到了一個違反樣本,那么使用第二種啟發(fā)式方法選擇一個第二種乘數(shù),并且這兩個乘數(shù)要能共同被優(yōu)化。支持向量機(jī)然后被更新,并且外部循環(huán)重新來尋找KKT違背者。在聯(lián)合最優(yōu)化的時候,SMO算法根據(jù)學(xué)習(xí)的最大化步長選擇第二種拉格朗日乘數(shù)。|E1-E2|被用來估計SMO中的步長。選擇第二種乘數(shù)的方法被描述為三個步驟。第一,循環(huán)訪問

27、所有的無邊界樣本,第二種乘數(shù)被選取自|E1-E2|最大的樣本中。第二,檢查,如果第一步?jīng)]有取得積極進(jìn)展,那么SMO開始循環(huán)訪問無邊界樣本來搜索一個下一個樣本,這個樣本能獲得積極進(jìn)展。第三,如果第二步也沒有取得什么進(jìn)展,那么SMO開始循環(huán)訪問整個訓(xùn)練集直到找到一個能取得積極進(jìn)展的樣本。第二和第三步都是隨機(jī)開始的,實驗結(jié)果表明該方法的有效性。
   第四,論文的另外一個貢獻(xiàn)是提出一種商業(yè)智能管理方法。該方法解決了收集與篩選股票時間序

28、列流的問題,另外,降低維數(shù)可快速優(yōu)化、結(jié)合及測試不同的特征以執(zhí)行基于應(yīng)用需求的快速相似性搜索。所有準(zhǔn)備和收集數(shù)據(jù)的操作都可以稱為數(shù)據(jù)收集,其目的是獲取信息并存儲或者將信息傳遞給其他人。當(dāng)進(jìn)行數(shù)據(jù)收集時,獲取高質(zhì)量的信息是極其重要的,因為高質(zhì)量信息是做出正確決策的可靠保證。對于這種方法,數(shù)據(jù)主要被收集來提供信息。收集到的數(shù)據(jù)不僅可以存儲在貯存空間,還可以用來監(jiān)測和評估。商業(yè)智能在做出有效的判斷方面發(fā)揮了重要作用,通過系統(tǒng)性的信息處理,可以

29、確定商業(yè)組織所處的環(huán)境,運(yùn)用這些準(zhǔn)確的判斷可改善商業(yè)表現(xiàn)、增加商業(yè)機(jī)會。假設(shè)商業(yè)智能模型是用來收集歷史數(shù)據(jù)、過濾必要數(shù)據(jù)并運(yùn)用這些數(shù)據(jù)預(yù)測未來值等一系列任務(wù)。這個模型可用于改善商業(yè)組織的表現(xiàn)。商業(yè)智能是發(fā)揮其所有潛能并將其轉(zhuǎn)換成商業(yè)組織的知識庫。這個研究的主要目的是提供了一種商業(yè)智能模型,基于這個模型及預(yù)處理數(shù)據(jù),可以預(yù)測商業(yè)表現(xiàn),然后,采用預(yù)測算法產(chǎn)生預(yù)期數(shù)據(jù)。商業(yè)智能技術(shù)可提供商業(yè)表現(xiàn)的歷史、現(xiàn)行及預(yù)測數(shù)據(jù)。論文中的方法包括四個主要

30、程序:收集數(shù)據(jù)、預(yù)處理、未來預(yù)測及評估。調(diào)查的目標(biāo)一旦確定,就執(zhí)行數(shù)據(jù)收集的程序。數(shù)據(jù)可能來自不同的來源,因此可能需要進(jìn)行數(shù)據(jù)綜合?;诖四康模岢龇椒ǖ牡谝徊绞菑纳虡I(yè)網(wǎng)站收集數(shù)據(jù)。這一步要選取商業(yè)證券公司的名稱并獲取一段時間內(nèi)的歷史數(shù)據(jù)。在這一程序中,也要收集并存儲其數(shù)據(jù)概要。為了減少運(yùn)用該方法的所需時間及存儲空間,利用模式匹配壓縮一些時間序列數(shù)據(jù)點(diǎn),這些數(shù)據(jù)點(diǎn)稱為非重要數(shù)據(jù)點(diǎn)。假設(shè)經(jīng)過匹配及壓縮數(shù)據(jù)點(diǎn)后,初始時間序列Ti轉(zhuǎn)換為Ti

31、'。選擇和壓縮數(shù)據(jù)點(diǎn)的方法不僅基于波動參數(shù)1v還基于時間持續(xù)參數(shù)λt。波動參數(shù)λv定義為時間區(qū)間內(nèi)確定值點(diǎn)的平均值。時間持續(xù)參數(shù)被定義為具有與連續(xù)點(diǎn)數(shù)量相同個數(shù)的滑動窗口,λt=w。在解決許多時間序列流的流環(huán)境中,對于一個給定的時間流序列Ti={ti1,ti1,tim},時間序列Ti檢查過程中的一個窗口定義為寬度為w的第i股流在時間段j。存在同時滿足參數(shù)λt和λv的四種情形,這意味著我們同時考慮了波動和時間持續(xù)的特殊性。為了說明更多的解

32、決方案,我們假設(shè)滑動窗口有五個連續(xù)的點(diǎn)pF, p2, p3,p4, pL,然后我們檢查是否p3<(p2,p3,p4)的平均值并且(p2<p4)或(p2>p4)),然后我們保留pF, p3, pL并且去掉p2, p4。概括這項貢獻(xiàn),這種方法已經(jīng)解決了多重時間序列環(huán)境中的問題,用以下的工作支持商務(wù)智能:聚集,過濾和儲存,然后在使用它們作預(yù)測之前進(jìn)行預(yù)處理。我們的方法同樣也對支持商務(wù)智能的時間序列流提出了一個方法。使用基于支持向量回歸的SMO

33、技術(shù)對未來值的預(yù)測并且提供了準(zhǔn)確度和普遍性的評價指標(biāo)。這種方法把大的歷史數(shù)據(jù)降低到一個能夠匹配預(yù)先定義樣本的較小的數(shù)據(jù)集,所以我們的性能得到了顯著的改善。在使用基于模式匹配預(yù)定義樣的減點(diǎn)方法之后,本方法生成的時間序列仍然可以保持原來的趨勢形狀。
   在這篇論文中,我們采用了一種框架來執(zhí)行實驗以展示這項研究的成果。目前,對大數(shù)據(jù)的單時間序列分析的框架有很多。我們提出了一種針對多時間序列數(shù)據(jù)的分析框架。這個框架在需要做決策來提高公

34、司商業(yè)效率和通過信息系統(tǒng)過程理解組織環(huán)境。一般地說,我們提出的時間序列分析框架的主要目的是預(yù)測。這個框架的前兩個步驟跟數(shù)據(jù)挖掘的系統(tǒng)過程一樣,數(shù)據(jù)收集,數(shù)據(jù)轉(zhuǎn)換,過濾,接著就是對準(zhǔn)備的數(shù)據(jù)降維。接下來的兩個過程分別為,標(biāo)準(zhǔn)化數(shù)據(jù)以及輸出用以作決策的信息。根據(jù)商業(yè)規(guī)則進(jìn)行信息評估和翻譯。預(yù)測分析的準(zhǔn)確度是根據(jù)統(tǒng)計的方法進(jìn)行計算的。另外,為了實行這種提出的技術(shù),實驗使用的數(shù)據(jù)來源于雅虎財經(jīng)網(wǎng)站上的金融時間序列數(shù)據(jù),實驗結(jié)果驗證了該方法的有效

35、性。本文提出的框架的第一個過程是數(shù)據(jù)收集。這個過程開始是收集初始數(shù)據(jù)和熟悉這些數(shù)據(jù)。主要的目的是了解數(shù)據(jù)的質(zhì)量,初步理解數(shù)據(jù),以及發(fā)現(xiàn)有興趣的數(shù)據(jù)子集。數(shù)據(jù)理解可以進(jìn)一步分為:初始數(shù)據(jù)的收集,數(shù)據(jù)的描述,數(shù)據(jù)的探測以及數(shù)據(jù)質(zhì)量的核查。對于時間序列的數(shù)據(jù)發(fā)掘來說,第二步為數(shù)據(jù)預(yù)處理,這個過程包括構(gòu)建最后數(shù)據(jù)集的所有活動,而最后的數(shù)據(jù)集用來加入到接下來的一個步驟的挖掘工具中或者挖掘算法中。它包括表,記錄,和屬性選擇;數(shù)據(jù)清理;構(gòu)建新的屬性;

36、數(shù)據(jù)轉(zhuǎn)換。在這個框架中,預(yù)處理數(shù)據(jù)工作的主要目的是通過轉(zhuǎn)換點(diǎn)和模式匹配來降維。本框架的第三個過程是挖掘數(shù)據(jù)和發(fā)現(xiàn)信息。為了獲取短期和長期預(yù)測所需的進(jìn)一步數(shù)據(jù),它包括兩個子過程。分析時間序列趨勢的子過程將預(yù)測第二天的金融數(shù)據(jù)的趨勢(這被叫做提前一天預(yù)測)。它將利用監(jiān)督和非監(jiān)督機(jī)器學(xué)習(xí)技術(shù)進(jìn)行聚類然后訓(xùn)練和測試樣品以預(yù)測未來值。這個值在輸出結(jié)果之前必須用預(yù)先定義好的交易規(guī)則進(jìn)行核查。剩下一個子過程使用兩種算法在多時間序列環(huán)境下執(zhí)行預(yù)測分析。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論