版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、數(shù)據(jù)挖掘是對(duì)觀測(cè)數(shù)據(jù)集的分析,以便找到對(duì)應(yīng)模型并且用新的更容易理解和使用的方式總結(jié)數(shù)據(jù)。以時(shí)間順序抵達(dá)的數(shù)據(jù),在許多其他的領(lǐng)域都有出現(xiàn),如物理學(xué),金融學(xué),醫(yī)學(xué)和音樂(lè)等。時(shí)間序列是一個(gè)重要的時(shí)態(tài)數(shù)據(jù)對(duì)象種類,并且它們很容易從金融領(lǐng)域和科學(xué)應(yīng)用中獲得。為了獲得有意義的數(shù)據(jù)和其他的數(shù)據(jù)特征,時(shí)序分析由分析時(shí)序數(shù)據(jù)的方法和技術(shù)組成。考慮到時(shí)序數(shù)據(jù)的廣泛出現(xiàn),還有數(shù)據(jù)庫(kù)一般呈指數(shù)級(jí)增長(zhǎng),時(shí)序數(shù)據(jù)挖掘目前成為了一個(gè)倍受關(guān)注的領(lǐng)域。因?yàn)樵诟鞣N各樣的設(shè)
2、置中,大規(guī)模的時(shí)序數(shù)據(jù)集更為普遍,本文面臨著開(kāi)發(fā)有效分析方法的重大挑戰(zhàn)。本文的作者旨在解決這些問(wèn)題,即為時(shí)序分析設(shè)計(jì)快速的可擴(kuò)展的算法。
在大規(guī)模數(shù)據(jù)中,時(shí)序分析研究中諸如預(yù)處理和為預(yù)測(cè)目標(biāo)轉(zhuǎn)換數(shù)據(jù)的工作具有重要意義并且也是普遍做法。如果數(shù)據(jù)特別是時(shí)序數(shù)據(jù)能被預(yù)處理,那么可以提高效率并且解決挖掘和發(fā)現(xiàn)過(guò)程中的困境。現(xiàn)在大量的數(shù)據(jù)預(yù)處理技術(shù),為了去除噪聲并且糾正數(shù)據(jù)中的不一致,就要用到數(shù)據(jù)清理技術(shù);為了把多源數(shù)據(jù)合并成為一個(gè)
3、連貫的數(shù)據(jù)倉(cāng)庫(kù),就要用到集成技術(shù);為了標(biāo)準(zhǔn)化數(shù)據(jù),就要用到轉(zhuǎn)換技術(shù)。數(shù)據(jù)壓縮在時(shí)序分析的預(yù)處理階段是一個(gè)很有意義的技術(shù),它可以通過(guò)聚集,消除冗余成分來(lái)減小數(shù)據(jù)規(guī)模。一般來(lái)說(shuō),時(shí)序預(yù)測(cè)是一個(gè)觀測(cè)值序列。時(shí)序預(yù)測(cè)表明以時(shí)間順序,過(guò)去可以在多大程度上決定未來(lái)。一個(gè)通過(guò)確定的線性過(guò)程生成的時(shí)間序列具有較高的可預(yù)測(cè)性,并且它的未來(lái)值能被過(guò)去值很準(zhǔn)確的預(yù)測(cè)到。一個(gè)不相關(guān)的過(guò)程生成的時(shí)間序列具有較低的可預(yù)測(cè)性,并且它的過(guò)去值只能為未來(lái)值提供一個(gè)統(tǒng)計(jì)特
4、征。
之前的一些用來(lái)挖掘和發(fā)現(xiàn)時(shí)序的技術(shù),如時(shí)序聚類,分類,預(yù)測(cè)和其他金融領(lǐng)域的應(yīng)用也被引用到了本文中。簡(jiǎn)單地說(shuō),本文的主要目標(biāo)是時(shí)序數(shù)據(jù)挖掘技術(shù)的研究,有如下方面:(1)數(shù)據(jù)預(yù)處理如降維,(2)時(shí)序數(shù)據(jù)的短期預(yù)測(cè),這一過(guò)程被稱為趨勢(shì)分析,(3)未來(lái)值的預(yù)測(cè),在具有大量數(shù)據(jù)流環(huán)境中,訓(xùn)練和檢測(cè)歷史樣本,(4)時(shí)序分析的商業(yè)智能模型。其中的每一項(xiàng)研究都提供了實(shí)驗(yàn)評(píng)估和分析來(lái)驗(yàn)證這種方法的有效性。
具體來(lái)說(shuō),本文
5、主要有如下四點(diǎn)貢獻(xiàn):
第一,本文中我們提出了數(shù)據(jù)預(yù)處理方法來(lái)降低時(shí)間序列的維度,與原數(shù)據(jù)相比仍保持形狀。這種方法是基于時(shí)間序列中轉(zhuǎn)折點(diǎn)的想法,而這些點(diǎn)被定義為時(shí)間序列數(shù)據(jù)趨勢(shì)的改變。時(shí)間序列中的轉(zhuǎn)折點(diǎn)被定義為分隔兩個(gè)相鄰趨勢(shì)的點(diǎn),并且在公告的發(fā)布時(shí)間中具有最短的距離。只有一些臨界點(diǎn)被保留下來(lái)了,而那些被認(rèn)為是干擾因子的臨界點(diǎn)被移除了。這種方法只考慮特定時(shí)間內(nèi)各個(gè)時(shí)序的臨界點(diǎn),以便減小數(shù)據(jù)規(guī)模,去除冗余成分。當(dāng)這種數(shù)據(jù)預(yù)處理
6、方法,被在挖掘過(guò)程之前使用時(shí),顯著地改進(jìn)了模式挖掘的總體質(zhì)量和實(shí)際挖掘所需的時(shí)間。所有的降維技術(shù)對(duì)大數(shù)據(jù)集的預(yù)處理都非常有意義,然后可以用它來(lái)分析和發(fā)現(xiàn)信息。第一個(gè)貢獻(xiàn)提出了一種方法,其建立在轉(zhuǎn)折點(diǎn)來(lái)減少時(shí)間序列數(shù)據(jù)維度之上,這項(xiàng)工作使得在數(shù)據(jù)流環(huán)境中,預(yù)測(cè)過(guò)程更加快速。這項(xiàng)貢獻(xiàn)專注于轉(zhuǎn)折點(diǎn),這些點(diǎn)提取自時(shí)間序列數(shù)據(jù)中的最大或最小值點(diǎn),證明對(duì)于在時(shí)間序列分析中預(yù)處理數(shù)據(jù)過(guò)程中更加高效。一個(gè)時(shí)間序列包含一系列局部的最大或者最小點(diǎn),并且其中
7、一些反映出了數(shù)據(jù)信息趨勢(shì)的逆轉(zhuǎn)。這些局部最大和最小點(diǎn)被稱為臨界點(diǎn);換個(gè)說(shuō)話,我們可以說(shuō)一個(gè)時(shí)間序列是由一系列臨界點(diǎn)組成的。這些臨界點(diǎn)通常被稱為轉(zhuǎn)折點(diǎn),因?yàn)樗鼈冿@現(xiàn)出了時(shí)間序列數(shù)據(jù)趨勢(shì)的變化。在這種方法中,轉(zhuǎn)折點(diǎn)廣泛地被用在數(shù)據(jù)挖掘分析領(lǐng)域中,因?yàn)樗鼈儽绕渌c(diǎn)包括更多的信息。轉(zhuǎn)折點(diǎn)描述了時(shí)間序列趨勢(shì)的變化并且他們能被用來(lái)識(shí)別事務(wù)周期的開(kāi)始與結(jié)束。我們認(rèn)為在時(shí)間序列Ti={ti,t2…,tn}中,轉(zhuǎn)折點(diǎn)ti是一個(gè)在兩種情況下都被注明的點(diǎn)。第
8、一種情況是,如果那個(gè)點(diǎn)在ti處結(jié)束上升的趨勢(shì)并且開(kāi)始一個(gè)下降的周期。在這種方法中,我們只考慮特定時(shí)期內(nèi)各個(gè)時(shí)間序列的關(guān)鍵點(diǎn)。時(shí)間序列中的轉(zhuǎn)折點(diǎn)被定義為分隔兩個(gè)相鄰趨勢(shì)的點(diǎn),并且在公告的發(fā)布時(shí)間中具有最短的距離。在構(gòu)造初始臨界點(diǎn)數(shù)列Ti'后,一個(gè)臨界點(diǎn)挑選標(biāo)準(zhǔn)被應(yīng)用來(lái)過(guò)濾掉對(duì)應(yīng)噪聲的臨界點(diǎn)。時(shí)間序列Ti和Ti'分別被稱為原始數(shù)列和預(yù)處理之后得出的數(shù)列。我們認(rèn)為原始時(shí)間序列Ti中第一個(gè)和最后一個(gè)數(shù)據(jù)點(diǎn)被保留為T(mén)i'中的第一個(gè)和最后一個(gè)點(diǎn)。挑
9、選的方向是基于波動(dòng)函數(shù)λv和時(shí)間持續(xù)閾值λt。我們方法中的時(shí)間持續(xù)閾值λt是5個(gè)連續(xù)的點(diǎn)。在一個(gè)多元時(shí)間序列環(huán)境中,對(duì)于一個(gè)給定的序列Tij={ti1,ti2,tim},序列中的一個(gè)轉(zhuǎn)折點(diǎn)(波峰或者波谷)被定義為任一時(shí)間周期j的第i股流,這是在考慮了波動(dòng)和時(shí)間持續(xù)的特定閾值之后,時(shí)間序列觀測(cè)中下降或者上升的變化。一個(gè)點(diǎn)處于上升還是下降的趨勢(shì)中是不確定的。為了使用更少的時(shí)間和內(nèi)存來(lái)完成,在本文中,我們根據(jù)轉(zhuǎn)折點(diǎn)提出了有六種情況的三個(gè)策略來(lái)
10、做排除。在每種策略中,選中還是排除的選擇權(quán)取決于參數(shù)λv和時(shí)間閾值λt。這意味著我們考慮了時(shí)間流環(huán)境中,每個(gè)時(shí)間序列中數(shù)據(jù)波動(dòng)和時(shí)間持續(xù)的特殊性。為了保證轉(zhuǎn)折點(diǎn)的觀測(cè)中時(shí)間和值的變化,我們用一個(gè)步長(zhǎng)范圍來(lái)排除不重要的點(diǎn)。為了避免產(chǎn)生一個(gè)錯(cuò)誤的轉(zhuǎn)折點(diǎn)(即那些處于上升或下降趨勢(shì)中的點(diǎn)),而識(shí)別一個(gè)真正的轉(zhuǎn)折點(diǎn),我們的策略是之前識(shí)別的轉(zhuǎn)折點(diǎn)與現(xiàn)在這個(gè)點(diǎn)是相對(duì)的。這意味著一個(gè)波峰后必須緊跟一個(gè)波谷,并且它們之間沒(méi)有其他的波峰了。這項(xiàng)工作已經(jīng)通過(guò)
11、降低大的歷史數(shù)據(jù)的維度并且使用數(shù)據(jù)挖掘技術(shù)計(jì)算未來(lái)值的方法,解決了時(shí)間序列預(yù)測(cè)的問(wèn)題。在采用了基于這種轉(zhuǎn)折點(diǎn)處理的降維方法后,我們方法生成的時(shí)間序列仍然保持了原始數(shù)據(jù)趨勢(shì)的形狀。提出的這種方法對(duì)于大的數(shù)據(jù)集處理是非常有效的。
第二,本文中的第二個(gè)貢獻(xiàn)是時(shí)間序列趨勢(shì)分析方法,它的功能是一個(gè)短期預(yù)測(cè),這與領(lǐng)先一步預(yù)測(cè)(one-day-ahead)有關(guān)。組合方法的結(jié)果是預(yù)測(cè)值,通過(guò)交易規(guī)則這個(gè)預(yù)測(cè)值能被用來(lái)做決策。在這項(xiàng)工作中,
12、聚類是第一個(gè)把數(shù)據(jù)聚集成簇的步驟,因此同一個(gè)簇中的所包含的對(duì)象之間的相似度要大于與另一個(gè)簇中的對(duì)象之間的相似度。之后,我們考慮數(shù)據(jù)的分類步驟,其中分類器被構(gòu)造來(lái)預(yù)測(cè)趨勢(shì)標(biāo)簽,比如金融數(shù)據(jù)中的“上升趨勢(shì)”,“非趨勢(shì)中”,“下降趨勢(shì)”。預(yù)測(cè)趨勢(shì)實(shí)現(xiàn)中的分類過(guò)程包裹兩個(gè)子過(guò)程:即學(xué)習(xí)和分類。學(xué)習(xí)過(guò)程通過(guò)支持向量機(jī)(SVM)來(lái)分析數(shù)據(jù)并且學(xué)習(xí)分類器是以分類規(guī)則的形式描述的。然后下一個(gè)估算測(cè)試集準(zhǔn)確度的子過(guò)程取決于分類規(guī)則。在準(zhǔn)確度被測(cè)為合適的情
13、況下,規(guī)則可以被應(yīng)用來(lái)對(duì)新的未來(lái)值分類。詳細(xì)來(lái)說(shuō),這項(xiàng)貢獻(xiàn)中我們提出了一個(gè)新的技術(shù),它是基于交易規(guī)則被用在有監(jiān)督的和無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法中來(lái)預(yù)測(cè)金融時(shí)間序列的趨勢(shì)。這種方法是利用聚集數(shù)據(jù)組之間相似性的K-Means和用來(lái)訓(xùn)練和測(cè)試歷史數(shù)據(jù)來(lái)執(zhí)行領(lǐng)先一步趨勢(shì)預(yù)測(cè)的支持向量機(jī)分類。為了保證這種方法的效率,我們比較傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)和單獨(dú)的支持向量機(jī)結(jié)果。為了完成實(shí)驗(yàn),我們收集了來(lái)自金融事件序列網(wǎng)站的數(shù)據(jù)并且過(guò)濾數(shù)據(jù),然后我們提取出了股票時(shí)間
14、流的指示器。在這種情況下,我們使用了指數(shù)加權(quán)法(EMA)作為指示函數(shù)。而作出這種選擇的原因是EMA可以很好地折衷過(guò)度敏感的加權(quán)移動(dòng)平均數(shù)和過(guò)慢的簡(jiǎn)單移動(dòng)平均數(shù)。預(yù)測(cè)趨勢(shì)階段的詳細(xì)過(guò)程為,我們結(jié)合K-Means算法聚類與SVM訓(xùn)練樣本來(lái)實(shí)現(xiàn)該方法。組合方法的結(jié)果通過(guò)預(yù)先確定的交易規(guī)則將被用來(lái)做決策。這種組合方法的想法利用了K-SVMeans的優(yōu)點(diǎn),這是一個(gè)對(duì)于多重屬性相關(guān)數(shù)據(jù)集的聚類算法,它結(jié)合了K-Means聚類和SVM。K-SVMea
15、ns是一個(gè)對(duì)于不同數(shù)據(jù)集的K-Means聚類算法,其中伴有一種數(shù)據(jù)類型的聚類在另一種類型中學(xué)習(xí)一種分類器,并且這個(gè)分類器影響聚類器的聚類決策。我們選擇K-Means算法作為這個(gè)方法的一部分是因?yàn)檫@個(gè)算法是一個(gè)著名的非層次聚類算法并且需要使用者分配存在于數(shù)據(jù)集中的聚類的個(gè)數(shù)。K-Means算法將會(huì)為每個(gè)具有相同屬性的聚類采集訓(xùn)練數(shù)據(jù)的樣本。對(duì)于每個(gè)聚類,我們根據(jù)BRF核函數(shù),用正規(guī)化參數(shù)C,(使用交叉驗(yàn)證)訓(xùn)練子集。通常,數(shù)據(jù)分類分為學(xué)習(xí)
16、階段和分類階段。在我們的學(xué)習(xí)階段,通過(guò)一個(gè)分類算法來(lái)分析訓(xùn)練數(shù)據(jù)集。這時(shí),種類的標(biāo)簽屬性被用來(lái)做決策,并且學(xué)習(xí)模型(分類器)以分類規(guī)則的形式呈現(xiàn)。在我們的分類階段,測(cè)試數(shù)據(jù)被用來(lái)估算分類規(guī)則的準(zhǔn)確性。如果準(zhǔn)確性可以被接受了,那么這個(gè)規(guī)則可以被用來(lái)對(duì)新的數(shù)據(jù)進(jìn)行分類。此外,為了使訓(xùn)練過(guò)程更加快速,我們對(duì)多類分類SVM選擇“one againstone”策略。順便指出一個(gè)N種分類的問(wèn)題,N(N-1)/2個(gè)支持向量機(jī)被訓(xùn)練來(lái)從另一個(gè)種類的所用
17、樣本中辨別一個(gè)種類的樣本。用這種方法,根據(jù)最大值表決,一種未知模式的分類被使用,其中每個(gè)SVM支持一種分類。我們的方法預(yù)測(cè)趨勢(shì)并且輸出對(duì)應(yīng)的分類標(biāo)簽值。用SVM完成訓(xùn)練和測(cè)試樣本需要五個(gè)步驟。第一步,我們要考慮輸出參數(shù),包括核參數(shù)γ,正規(guī)化參數(shù)C,還有聚類個(gè)數(shù)K。第二步是運(yùn)行K-Means聚類算法,這個(gè)算法運(yùn)行在原始數(shù)據(jù)上并且所有的聚類中心被認(rèn)為用來(lái)構(gòu)造分類器。第三步,以聚類的數(shù)據(jù)為基礎(chǔ)來(lái)構(gòu)建SVM分類器。第四步是通過(guò)啟發(fā)式搜索策略調(diào)整
18、輸入函數(shù)。第五步是測(cè)試準(zhǔn)確性和反應(yīng)時(shí)間,如果組合方法能被接受那么第五步停止;否則這個(gè)算法將會(huì)返回第一步來(lái)測(cè)試輸入?yún)?shù)新的組合。這項(xiàng)工作研究了時(shí)間序列趨勢(shì)分析在有監(jiān)督和無(wú)監(jiān)督學(xué)習(xí)機(jī)中的問(wèn)題。使用這種組合技術(shù),提出了一個(gè)針對(duì)趨勢(shì)預(yù)測(cè)問(wèn)題,結(jié)合K-Means聚類算法和SVM訓(xùn)練算法的方法??傊?,這種方法使用K-Means算法對(duì)輸入數(shù)據(jù)聚類;然后從每個(gè)聚類訓(xùn)練SVM分類,這種方法預(yù)測(cè)一個(gè)時(shí)間序列趨勢(shì)特別是進(jìn)入那個(gè)數(shù)據(jù)分析的輸出結(jié)果。這種情況下,
19、趨勢(shì)是上升的但是預(yù)測(cè)值是下降的,我們成為預(yù)測(cè)錯(cuò)誤,反之亦然。這種模型的準(zhǔn)確度被定義為準(zhǔn)確分類樣本數(shù)量與總的樣本數(shù)量的百分比。這個(gè)實(shí)驗(yàn)結(jié)果證明提出的組合方法相較于其他方法具有較高的準(zhǔn)確性。
第三,本文的下一個(gè)貢獻(xiàn)是預(yù)測(cè)未來(lái)值的方法,而其取決于在多重時(shí)間序列環(huán)境中的歷史值。我們認(rèn)為這是程序研究中重要的組成部分,因?yàn)檫@些數(shù)據(jù)結(jié)果常常為決策理論模型提供基礎(chǔ)。模擬時(shí)間序列數(shù)據(jù)是一個(gè)統(tǒng)計(jì)問(wèn)題;并且時(shí)間序列預(yù)測(cè)技術(shù)已經(jīng)被應(yīng)用到了許多真實(shí)
20、世界應(yīng)用中。預(yù)測(cè)技術(shù)用于計(jì)算過(guò)程中估算一個(gè)模型的參數(shù),這個(gè)模型被用來(lái)分配有限的資源或者來(lái)描述如上面提到的隨機(jī)過(guò)程。在本文中也提到了多重時(shí)間序列環(huán)境的時(shí)間序列預(yù)測(cè)分析問(wèn)題。在學(xué)習(xí)機(jī)方法中,能被用于回歸分析的支持向量機(jī)被稱為支持向量回歸機(jī),支持向量回歸機(jī)已成功地被應(yīng)用于時(shí)間序列流分析,但是它的優(yōu)化算法通常是由二次最優(yōu)化包組成的。在兩次最優(yōu)化的大量數(shù)據(jù)集中,基于支持向量機(jī)算法的順序最優(yōu)算法可以提高操作速度并且減低較長(zhǎng)的運(yùn)行時(shí)間。這項(xiàng)貢獻(xiàn)的詳細(xì)
21、描述如下,假設(shè)數(shù)據(jù)流中我們有n個(gè)時(shí)間序列{T1,T2,…,Tn},在當(dāng)前的時(shí)間戳(m-1)每個(gè)Ti包括m個(gè)有序值,也就是說(shuō),Ti={ti0,ti1,…,ti(m-1)}其中tij是在Ti中時(shí)間戳j的值。假設(shè)n股時(shí)間序列流只接收F時(shí)間戳后的數(shù)據(jù)。換而言之,對(duì)于每一個(gè)時(shí)間序列Ti,未來(lái)值tim,tim,ti(m+1),ti(m+2),…,和ti(m+F-1)分別匹配時(shí)間戳m,(m+1),(m+2)…,和(m+F-1),以批量形式到達(dá)同一時(shí)間
22、戳(m+F)。時(shí)間戳由m到(m+F)的階段,系統(tǒng)不知道F在每個(gè)時(shí)間序列中的未來(lái)值。這個(gè)方法的目標(biāo)是要為n次時(shí)間序列流有效地預(yù)測(cè)n.F值,并且預(yù)測(cè)錯(cuò)誤要盡可能的低而且準(zhǔn)確度要盡可能的高。為了比較多重時(shí)間序列中的統(tǒng)計(jì)方法,在這一部分中,線性回歸模型被用來(lái)表示時(shí)間序列數(shù)據(jù)流,一個(gè)時(shí)間序列集{T1,T2…,Tn}其中Ti={ti0,ti1,ti2…ti(m-1)}i<=n。對(duì)于數(shù)據(jù)流的每個(gè)時(shí)間序列,我們假設(shè)歷史值集{ti0,ti1,ti2…ti
23、H}為因變量,預(yù)測(cè)值是線性回歸模型的獨(dú)立值。如果獨(dú)立值是已知的,那么應(yīng)用這個(gè)定義我們預(yù)測(cè)獨(dú)立變量的均值。線性回歸實(shí)現(xiàn)了一個(gè)統(tǒng)計(jì)模型,當(dāng)獨(dú)立變量和因變量差不多是線性關(guān)系的時(shí)候,這個(gè)模型給出了最優(yōu)解。另一個(gè)我們選擇線性回歸來(lái)解釋我們的方法的原因是因?yàn)榫€性回歸是一個(gè)簡(jiǎn)單回歸分析,它能較好地用來(lái)預(yù)測(cè)數(shù)值型的輸出。此外,在多重時(shí)間序列環(huán)境中,如果每個(gè)時(shí)間序列都在主存中輸入他們各自的核心矩陣,那么主存將會(huì)溢出。我們采用這個(gè)算法是因?yàn)槭褂没赟VM的
24、序列最小最優(yōu)化算法(SMO)只迭代調(diào)用核心矩陣,因而執(zhí)行過(guò)程得到了改善。對(duì)于大的數(shù)據(jù)集,SVM的執(zhí)行速度變慢了,以便我們挑選SMO來(lái)得到更好的執(zhí)行時(shí)間和未來(lái)數(shù)據(jù)的精確度。SMO是一個(gè)來(lái)解決SVM最優(yōu)化問(wèn)題的迭代算法。SMO算法把問(wèn)題分解成一系列最小可能的子問(wèn)題,而這些問(wèn)題能被分解得解決。由于線性等式約束涉及到拉格朗日乘數(shù),最小可能問(wèn)題包括兩個(gè)這樣的乘數(shù)。對(duì)于在多重時(shí)間序列中的每個(gè)對(duì)象,SMO反復(fù)執(zhí)行這兩個(gè)步驟。對(duì)于我們方法中的每個(gè)時(shí)間序
25、列,算法的第一步是找到一個(gè)拉格朗日乘數(shù)α。第二步是挑選一個(gè)次要的乘數(shù)α*并且優(yōu)化對(duì)(α,α*)。這個(gè)算法將會(huì)重復(fù)上面的這兩個(gè)步驟直到收斂。當(dāng)所有的拉格朗日乘數(shù)滿足了卡羅需-庫(kù)恩-塔克條件(KKT,一個(gè)自定義的耐受值),那么這個(gè)問(wèn)題就被解決了。雖然這個(gè)算法保證是收斂的,但是為了加快收斂速度,我們使用了啟發(fā)式算法來(lái)挑選乘數(shù)對(duì)。為了挑選拉格朗日乘數(shù)來(lái)優(yōu)化,我們選取了第一種使用SMO算法的外部循環(huán)的拉格朗日乘數(shù)。外部循環(huán)首先在無(wú)邊界的訓(xùn)練子集中
26、進(jìn)行迭代。如果某個(gè)樣本違背了KKT條件,那么它就可以立即被優(yōu)化。如果不存在這樣的樣本集,那么就在整個(gè)訓(xùn)練集中進(jìn)行迭代。如果找到了一個(gè)違反樣本,那么使用第二種啟發(fā)式方法選擇一個(gè)第二種乘數(shù),并且這兩個(gè)乘數(shù)要能共同被優(yōu)化。支持向量機(jī)然后被更新,并且外部循環(huán)重新來(lái)尋找KKT違背者。在聯(lián)合最優(yōu)化的時(shí)候,SMO算法根據(jù)學(xué)習(xí)的最大化步長(zhǎng)選擇第二種拉格朗日乘數(shù)。|E1-E2|被用來(lái)估計(jì)SMO中的步長(zhǎng)。選擇第二種乘數(shù)的方法被描述為三個(gè)步驟。第一,循環(huán)訪問(wèn)
27、所有的無(wú)邊界樣本,第二種乘數(shù)被選取自|E1-E2|最大的樣本中。第二,檢查,如果第一步?jīng)]有取得積極進(jìn)展,那么SMO開(kāi)始循環(huán)訪問(wèn)無(wú)邊界樣本來(lái)搜索一個(gè)下一個(gè)樣本,這個(gè)樣本能獲得積極進(jìn)展。第三,如果第二步也沒(méi)有取得什么進(jìn)展,那么SMO開(kāi)始循環(huán)訪問(wèn)整個(gè)訓(xùn)練集直到找到一個(gè)能取得積極進(jìn)展的樣本。第二和第三步都是隨機(jī)開(kāi)始的,實(shí)驗(yàn)結(jié)果表明該方法的有效性。
第四,論文的另外一個(gè)貢獻(xiàn)是提出一種商業(yè)智能管理方法。該方法解決了收集與篩選股票時(shí)間序
28、列流的問(wèn)題,另外,降低維數(shù)可快速優(yōu)化、結(jié)合及測(cè)試不同的特征以執(zhí)行基于應(yīng)用需求的快速相似性搜索。所有準(zhǔn)備和收集數(shù)據(jù)的操作都可以稱為數(shù)據(jù)收集,其目的是獲取信息并存儲(chǔ)或者將信息傳遞給其他人。當(dāng)進(jìn)行數(shù)據(jù)收集時(shí),獲取高質(zhì)量的信息是極其重要的,因?yàn)楦哔|(zhì)量信息是做出正確決策的可靠保證。對(duì)于這種方法,數(shù)據(jù)主要被收集來(lái)提供信息。收集到的數(shù)據(jù)不僅可以存儲(chǔ)在貯存空間,還可以用來(lái)監(jiān)測(cè)和評(píng)估。商業(yè)智能在做出有效的判斷方面發(fā)揮了重要作用,通過(guò)系統(tǒng)性的信息處理,可以
29、確定商業(yè)組織所處的環(huán)境,運(yùn)用這些準(zhǔn)確的判斷可改善商業(yè)表現(xiàn)、增加商業(yè)機(jī)會(huì)。假設(shè)商業(yè)智能模型是用來(lái)收集歷史數(shù)據(jù)、過(guò)濾必要數(shù)據(jù)并運(yùn)用這些數(shù)據(jù)預(yù)測(cè)未來(lái)值等一系列任務(wù)。這個(gè)模型可用于改善商業(yè)組織的表現(xiàn)。商業(yè)智能是發(fā)揮其所有潛能并將其轉(zhuǎn)換成商業(yè)組織的知識(shí)庫(kù)。這個(gè)研究的主要目的是提供了一種商業(yè)智能模型,基于這個(gè)模型及預(yù)處理數(shù)據(jù),可以預(yù)測(cè)商業(yè)表現(xiàn),然后,采用預(yù)測(cè)算法產(chǎn)生預(yù)期數(shù)據(jù)。商業(yè)智能技術(shù)可提供商業(yè)表現(xiàn)的歷史、現(xiàn)行及預(yù)測(cè)數(shù)據(jù)。論文中的方法包括四個(gè)主要
30、程序:收集數(shù)據(jù)、預(yù)處理、未來(lái)預(yù)測(cè)及評(píng)估。調(diào)查的目標(biāo)一旦確定,就執(zhí)行數(shù)據(jù)收集的程序。數(shù)據(jù)可能來(lái)自不同的來(lái)源,因此可能需要進(jìn)行數(shù)據(jù)綜合?;诖四康?,所提出方法的第一步是從商業(yè)網(wǎng)站收集數(shù)據(jù)。這一步要選取商業(yè)證券公司的名稱并獲取一段時(shí)間內(nèi)的歷史數(shù)據(jù)。在這一程序中,也要收集并存儲(chǔ)其數(shù)據(jù)概要。為了減少運(yùn)用該方法的所需時(shí)間及存儲(chǔ)空間,利用模式匹配壓縮一些時(shí)間序列數(shù)據(jù)點(diǎn),這些數(shù)據(jù)點(diǎn)稱為非重要數(shù)據(jù)點(diǎn)。假設(shè)經(jīng)過(guò)匹配及壓縮數(shù)據(jù)點(diǎn)后,初始時(shí)間序列Ti轉(zhuǎn)換為T(mén)i
31、'。選擇和壓縮數(shù)據(jù)點(diǎn)的方法不僅基于波動(dòng)參數(shù)1v還基于時(shí)間持續(xù)參數(shù)λt。波動(dòng)參數(shù)λv定義為時(shí)間區(qū)間內(nèi)確定值點(diǎn)的平均值。時(shí)間持續(xù)參數(shù)被定義為具有與連續(xù)點(diǎn)數(shù)量相同個(gè)數(shù)的滑動(dòng)窗口,λt=w。在解決許多時(shí)間序列流的流環(huán)境中,對(duì)于一個(gè)給定的時(shí)間流序列Ti={ti1,ti1,tim},時(shí)間序列Ti檢查過(guò)程中的一個(gè)窗口定義為寬度為w的第i股流在時(shí)間段j。存在同時(shí)滿足參數(shù)λt和λv的四種情形,這意味著我們同時(shí)考慮了波動(dòng)和時(shí)間持續(xù)的特殊性。為了說(shuō)明更多的解
32、決方案,我們假設(shè)滑動(dòng)窗口有五個(gè)連續(xù)的點(diǎn)pF, p2, p3,p4, pL,然后我們檢查是否p3<(p2,p3,p4)的平均值并且(p2<p4)或(p2>p4)),然后我們保留pF, p3, pL并且去掉p2, p4。概括這項(xiàng)貢獻(xiàn),這種方法已經(jīng)解決了多重時(shí)間序列環(huán)境中的問(wèn)題,用以下的工作支持商務(wù)智能:聚集,過(guò)濾和儲(chǔ)存,然后在使用它們作預(yù)測(cè)之前進(jìn)行預(yù)處理。我們的方法同樣也對(duì)支持商務(wù)智能的時(shí)間序列流提出了一個(gè)方法。使用基于支持向量回歸的SMO
33、技術(shù)對(duì)未來(lái)值的預(yù)測(cè)并且提供了準(zhǔn)確度和普遍性的評(píng)價(jià)指標(biāo)。這種方法把大的歷史數(shù)據(jù)降低到一個(gè)能夠匹配預(yù)先定義樣本的較小的數(shù)據(jù)集,所以我們的性能得到了顯著的改善。在使用基于模式匹配預(yù)定義樣的減點(diǎn)方法之后,本方法生成的時(shí)間序列仍然可以保持原來(lái)的趨勢(shì)形狀。
在這篇論文中,我們采用了一種框架來(lái)執(zhí)行實(shí)驗(yàn)以展示這項(xiàng)研究的成果。目前,對(duì)大數(shù)據(jù)的單時(shí)間序列分析的框架有很多。我們提出了一種針對(duì)多時(shí)間序列數(shù)據(jù)的分析框架。這個(gè)框架在需要做決策來(lái)提高公
34、司商業(yè)效率和通過(guò)信息系統(tǒng)過(guò)程理解組織環(huán)境。一般地說(shuō),我們提出的時(shí)間序列分析框架的主要目的是預(yù)測(cè)。這個(gè)框架的前兩個(gè)步驟跟數(shù)據(jù)挖掘的系統(tǒng)過(guò)程一樣,數(shù)據(jù)收集,數(shù)據(jù)轉(zhuǎn)換,過(guò)濾,接著就是對(duì)準(zhǔn)備的數(shù)據(jù)降維。接下來(lái)的兩個(gè)過(guò)程分別為,標(biāo)準(zhǔn)化數(shù)據(jù)以及輸出用以作決策的信息。根據(jù)商業(yè)規(guī)則進(jìn)行信息評(píng)估和翻譯。預(yù)測(cè)分析的準(zhǔn)確度是根據(jù)統(tǒng)計(jì)的方法進(jìn)行計(jì)算的。另外,為了實(shí)行這種提出的技術(shù),實(shí)驗(yàn)使用的數(shù)據(jù)來(lái)源于雅虎財(cái)經(jīng)網(wǎng)站上的金融時(shí)間序列數(shù)據(jù),實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效
35、性。本文提出的框架的第一個(gè)過(guò)程是數(shù)據(jù)收集。這個(gè)過(guò)程開(kāi)始是收集初始數(shù)據(jù)和熟悉這些數(shù)據(jù)。主要的目的是了解數(shù)據(jù)的質(zhì)量,初步理解數(shù)據(jù),以及發(fā)現(xiàn)有興趣的數(shù)據(jù)子集。數(shù)據(jù)理解可以進(jìn)一步分為:初始數(shù)據(jù)的收集,數(shù)據(jù)的描述,數(shù)據(jù)的探測(cè)以及數(shù)據(jù)質(zhì)量的核查。對(duì)于時(shí)間序列的數(shù)據(jù)發(fā)掘來(lái)說(shuō),第二步為數(shù)據(jù)預(yù)處理,這個(gè)過(guò)程包括構(gòu)建最后數(shù)據(jù)集的所有活動(dòng),而最后的數(shù)據(jù)集用來(lái)加入到接下來(lái)的一個(gè)步驟的挖掘工具中或者挖掘算法中。它包括表,記錄,和屬性選擇;數(shù)據(jù)清理;構(gòu)建新的屬性;
36、數(shù)據(jù)轉(zhuǎn)換。在這個(gè)框架中,預(yù)處理數(shù)據(jù)工作的主要目的是通過(guò)轉(zhuǎn)換點(diǎn)和模式匹配來(lái)降維。本框架的第三個(gè)過(guò)程是挖掘數(shù)據(jù)和發(fā)現(xiàn)信息。為了獲取短期和長(zhǎng)期預(yù)測(cè)所需的進(jìn)一步數(shù)據(jù),它包括兩個(gè)子過(guò)程。分析時(shí)間序列趨勢(shì)的子過(guò)程將預(yù)測(cè)第二天的金融數(shù)據(jù)的趨勢(shì)(這被叫做提前一天預(yù)測(cè))。它將利用監(jiān)督和非監(jiān)督機(jī)器學(xué)習(xí)技術(shù)進(jìn)行聚類然后訓(xùn)練和測(cè)試樣品以預(yù)測(cè)未來(lái)值。這個(gè)值在輸出結(jié)果之前必須用預(yù)先定義好的交易規(guī)則進(jìn)行核查。剩下一個(gè)子過(guò)程使用兩種算法在多時(shí)間序列環(huán)境下執(zhí)行預(yù)測(cè)分析。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于前綴樹(shù)結(jié)構(gòu)的序列模式挖掘算法研究(英文版).pdf
- 基于模糊技術(shù)的時(shí)間序列分析.pdf
- 外文翻譯--數(shù)控技術(shù) 英文版.pdf
- 英文版.doc
- 英文版.doc
- 外文翻譯--數(shù)控技術(shù) 英文版.pdf
- 英文版.doc
- 英文版.doc
- 英文版.doc
- 廈門(mén)傳統(tǒng)風(fēng)俗英文版、廈門(mén)景點(diǎn)介紹英文版
- 人鼠之間人物分析(英文版)
- 《水調(diào)歌頭》英文版
- 英文版.doc
- 英文版.doc
- 外文翻譯英文版.pdf
- 基于時(shí)間序列數(shù)據(jù)挖掘的日志分析技術(shù)的研究.pdf
- 皇帝的新裝英文版
- 圍城英文版
- 英文版.doc
- nike耐克stp戰(zhàn)略分析__英文版
評(píng)論
0/150
提交評(píng)論