版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、<p> 關(guān)于ATM機(jī)異常檢測的數(shù)學(xué)模型</p><p><b> 摘要</b></p><p> 隨著現(xiàn)代自動化程度提高,ATM機(jī)逐漸步入人們的生活,因此ATM機(jī)的正常運行就顯得非常重要。由于ATM機(jī)是24小時無人監(jiān)管,為了能夠幫助銀行更好地發(fā)現(xiàn)ATM機(jī)的異常狀態(tài),我們通過建立數(shù)學(xué)模型,設(shè)計了ATM機(jī)交易異常檢測方案。</p><
2、p> 對于問題一,由于題目中提到工作日和非工作日的交易量存在差別,因此,我們將附件中的數(shù)據(jù)按春節(jié)前、春節(jié)后、小長假、周六日和正常工作日分別進(jìn)行分析。特征參數(shù)是用于表征物質(zhì)或現(xiàn)象特性的參數(shù)信息,是一組數(shù)據(jù)的數(shù)理特征,有別于題中所給的交易量,成功率和響應(yīng)時間三個指標(biāo)。因此,我們選擇每個時刻ATM機(jī)交易量、成功率和響應(yīng)時間的平均值和標(biāo)準(zhǔn)差作為特征參數(shù)進(jìn)行提取和分析。然后對五種日期的特征參數(shù)進(jìn)行T型假設(shè)檢驗,得出了以下結(jié)論:對于交易量,
3、春節(jié)前、春節(jié)、清明三天小長假與工作日存在顯著性差異,而周六日與工作日不存在顯著性差異;對于成功率,則不存在顯著性差異;對于響應(yīng)時間,春節(jié)前與工作日存在顯著性差異,其余時間段則不存在。</p><p> 對于問題二,我們基于問題一得出的結(jié)論,將方案分為工作日和法定節(jié)假日,根據(jù)其各自的特點,提出不同的異常情況檢測方案。對于工作日,我們提出了基于歐式距離和基于偏差的異常檢測方案。首先,我們先利用SPSS對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)
4、化,消除數(shù)量級與單位對數(shù)據(jù)的影響。然后求解出各個時刻的交易量、成功率、響應(yīng)時間三個指標(biāo)與該時刻正常水平的距離,當(dāng)其落在異常區(qū)間時就可認(rèn)為是異常數(shù)據(jù)。對于法定節(jié)假日,由于數(shù)據(jù)較少且較工作日差別較大,因此對于交易量,我們采用基于鄰域的異常數(shù)據(jù)檢測方法。因為交易量隨時間是連續(xù)變化,因此當(dāng)交易量出現(xiàn)驟降時,可認(rèn)為該時刻出現(xiàn)異常。而對于臨界異常度的確定,我們通過單樣本的K-S檢驗確定樣本數(shù)據(jù)的正態(tài)性,檢驗結(jié)果可知其服從正態(tài)分布,因此,其臨界值可根
5、據(jù)原則確定。對于成功率與響應(yīng)時間,采用基于偏差的異常檢測方案,當(dāng)其偏差落在異常域時,則該時刻出現(xiàn)異常。同時我們通過建立時間序列預(yù)測模型,用已知數(shù)據(jù)檢驗,來求得虛警誤報率分別為0.011和0.009。以此來檢驗?zāi)P偷臏?zhǔn)確性。</p><p> 對于問題三,我們提出了網(wǎng)絡(luò)負(fù)載率、響應(yīng)率、每種故障的修復(fù)時間、每筆交易金額等指標(biāo)進(jìn)行數(shù)據(jù)拓展,對可疑數(shù)據(jù)進(jìn)行異常性分析,可以篩選出更準(zhǔn)確的異常數(shù)據(jù)點,以減少誤報情況,從而達(dá)
6、到提升問題一、問題二中的目標(biāo)。</p><p> 關(guān)鍵詞:假設(shè)檢驗 距離檢測 時間序列 鄰域檢測 K-S檢驗 </p><p><b> 一.問題重述</b></p><p> 某商業(yè)銀行的ATM應(yīng)用系統(tǒng)包括前端和后端兩個部分。前端是部署在銀行營業(yè)部和各自助服務(wù)點的ATM 機(jī)(系統(tǒng)),后端是總行數(shù)據(jù)中心的處理系統(tǒng)。前
7、端 的主要功能是和客戶直接交互,采集客戶請求信息,然后通過網(wǎng)絡(luò)傳輸?shù)胶蠖?,再進(jìn)行數(shù)據(jù)和賬務(wù)處理。持卡人從前端設(shè)備提交查詢或轉(zhuǎn)賬或取現(xiàn)等業(yè)務(wù)請求,到后臺處理完畢,并將處理結(jié)果返回到前端,通知持卡人業(yè)務(wù)處理最終狀態(tài),我們稱這樣完整的一個流程為一筆交易。 </p><p> 商業(yè)銀行總行數(shù)據(jù)中心監(jiān)控系統(tǒng)為了實時掌握全行的業(yè)務(wù)狀態(tài),每分鐘對各 分行的交易信息進(jìn)行匯總統(tǒng)計。匯總信息包括業(yè)務(wù)量、交易成功率、交易響應(yīng)時 間三
8、個指標(biāo),各指標(biāo)解釋如下:1、業(yè)務(wù)量:每分鐘總共發(fā)生的交易總筆數(shù); 2、交易成功率:每分鐘交易成功筆數(shù)和業(yè)務(wù)量的比率;3、交易響應(yīng)時間:一分鐘內(nèi)每筆交易在后端處理的平均耗時(單位:毫秒)。 </p><p> 交易數(shù)據(jù)分布存在以下特征:工作日和非工作日的交易量存在差別;一天內(nèi), 交易量也存在業(yè)務(wù)低谷時間段和正常業(yè)務(wù)時間段。當(dāng)無交易發(fā)生時,交易成功率 和交易響應(yīng)時間指標(biāo)為空。商業(yè)銀行總行數(shù)據(jù)中心監(jiān)控系統(tǒng)通過對每家分
9、行的匯總統(tǒng)計信息做數(shù)據(jù)分析,來捕捉整個前端和后端整體應(yīng)用系統(tǒng)運行情況以及時發(fā)現(xiàn)異?;蚬收稀3R姷墓收蠄鼍鞍ǖ幌抻谌缦虑樾危?lt;/p><p> 1、分行側(cè)網(wǎng)絡(luò)傳輸節(jié)點故障,前端交易無法上送請求,導(dǎo)致業(yè)務(wù)量陡降;</p><p> 2、分行側(cè)參數(shù)數(shù)據(jù)變更或者配置錯誤,數(shù)據(jù)中心后端處理失敗率增加,影響交易成功率指標(biāo);</p><p> 3、數(shù)據(jù)中心后端處理系統(tǒng)異
10、常(如操作系統(tǒng) CPU 負(fù)荷過大)引起交易處理 緩慢,影響交易響應(yīng)時間指標(biāo);</p><p> 4、數(shù)據(jù)中心后端處理系統(tǒng)應(yīng)用進(jìn)程異常,導(dǎo)致交易失敗或響應(yīng)緩慢。</p><p> 附件是某商業(yè)銀行ATM應(yīng)用系統(tǒng)某分行的交易統(tǒng)計數(shù)據(jù)。我們根據(jù)附件完成以下三個任務(wù):</p><p> ?。?)選擇、提取和分析 ATM 交易狀態(tài)的特征參數(shù); </p>&l
11、t;p> ?。?)設(shè)計一套交易狀態(tài)異常檢測方案,在對該交易系統(tǒng)的應(yīng)用可用性異常情況下能做到及時報警,同時盡量減少虛警誤報; </p><p> (3)設(shè)想可增加采集的數(shù)據(jù)?;跀U(kuò)展數(shù)據(jù),提升任務(wù)(1)(2)中達(dá)到的目標(biāo)。</p><p><b> 二.問題分析</b></p><p><b> 2.1問題一的分析</
12、b></p><p> 針對問題一,題目要求選擇、提取和分析 ATM 交易狀態(tài)的特征參數(shù)。首先,我們對ATM 交易流程進(jìn)行研究,流程圖如下:</p><p><b> 網(wǎng)絡(luò)傳輸</b></p><p> 圖一.ATM機(jī)交易流程圖</p><p> 對于附件給出的交易數(shù)據(jù),我們可以先對其做出散點圖,可以發(fā)現(xiàn):
13、每一天的交易量隨時間變化而變化,與時間呈現(xiàn)出很強(qiáng)的相關(guān)性,一天內(nèi),交易量也存在業(yè)務(wù)低谷時間段和正常業(yè)務(wù)時間段。且每天的交易量大致成“M型” 。特征參數(shù)是用于表征物質(zhì)或現(xiàn)象特性的參數(shù)信息,是一組數(shù)據(jù)的數(shù)理特征,有別于題中所給的交易量,成功率和響應(yīng)時間三個指標(biāo),因此,我們選擇每個時刻ATM機(jī)交易量、成功率和響應(yīng)時間的平均值和標(biāo)準(zhǔn)差作為特征參數(shù)進(jìn)行提取和分析,平均值反映每個時刻三個指標(biāo)的平均水平,標(biāo)準(zhǔn)差反映某個時間段三個指標(biāo)的波動水平。又因為
14、題目中提到工作日和非工作日的交易量存在差別。因此我們對題目數(shù)據(jù)中出現(xiàn)國家法定節(jié)假日、周六日與工作日分別進(jìn)行假設(shè)檢驗,利用兩個正態(tài)總體參數(shù)的T假設(shè)檢驗對其總體期望值進(jìn)行比較,分析工作日與非工作日中交易量、成功率、響應(yīng)時間的差別。</p><p><b> 2.2問題二的分析</b></p><p> 針對問題二,題目要求設(shè)計一套交易狀態(tài)異常檢測方案,在對該交易系統(tǒng)的
15、應(yīng)用可用性異常情況下能做到及時報警,同時盡量減少虛警誤報。首先,我們先對ATM機(jī)異常的情況進(jìn)行研究,存在于以下幾種情況:1、分行側(cè)網(wǎng)絡(luò)傳輸節(jié)點故障,前端交易無法上送請求,導(dǎo)致業(yè)務(wù)量陡降;2、分行側(cè)參數(shù)數(shù)據(jù)變更或者配置錯誤,數(shù)據(jù)中心后端處理失敗率增加,影響交易成功率指標(biāo);3、數(shù)據(jù)中心后端處理系統(tǒng)異常引起交易處理緩慢,影響交易響應(yīng)時間指標(biāo);4、數(shù)據(jù)中心后端處理系統(tǒng)應(yīng)用進(jìn)程異常,導(dǎo)致交易失敗或響應(yīng)緩慢等。經(jīng)過分析得:這些故障最終都是通過業(yè)務(wù)量
16、、成功率、響應(yīng)時間反應(yīng)出來的。由此,我們以問題一中提取的特征參數(shù)為依據(jù),對這些異常進(jìn)行刻畫。</p><p> 由問題一中的分析可得,工作日與非工作日的交易量存在顯著性差異,表現(xiàn)在國家法定節(jié)假日的交易量等與工作日存在顯著性差別。因此,分別提出對工作日和法定節(jié)假日的異常數(shù)據(jù)檢測方案。</p><p> 對于工作日,我們運用基于距離和偏差的異常數(shù)據(jù)點檢測方案。首先,由于數(shù)據(jù)單位及數(shù)量級的影
17、響,我們先對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化。然后運用基于距離的異常數(shù)據(jù)檢測方案,求取每個時間點的歐氏距離。通過單樣本的K-S檢驗得知歐氏距離具有正態(tài)性,因此我們可以根據(jù)原則,即當(dāng)歐氏距離大于時,為可疑的異常點;然后對這些時刻數(shù)據(jù)運用基于偏差的異常數(shù)據(jù)檢測,設(shè)立交易量、成功率、響應(yīng)時間的異常區(qū)間,當(dāng)這些異常點的某個指標(biāo)落入異常區(qū)間時,則該時刻交易狀態(tài)出現(xiàn)了異常。</p><p> 由于法定節(jié)假日每一時刻的交易量數(shù)據(jù)較少,且與工作
18、日存在顯著的差異性。因此,我們選擇用基于鄰域的異常數(shù)據(jù)檢測方案。對于法定節(jié)假日,其每天的交易量變化看做是一條隨時間連續(xù)變化的曲線,且后一個時刻與前一個時刻之間的變化量是服從正態(tài)分布的,因此,出現(xiàn)突變的可能性極小。而對于成功率與響應(yīng)時間,根據(jù)第一問可得,法定節(jié)假日與工作日不存在顯著性差別。因此還是利用基于距離和偏差的異常數(shù)據(jù)檢測方案。[1]</p><p> 同時我們通過建立預(yù)測模型,預(yù)測每一時刻的數(shù)值并與上述異
19、常檢測方案中確定的正常區(qū)間比較,來求得虛警誤報率,以此驗證該模型的準(zhǔn)確性,達(dá)到題目中要求的減少虛警誤報的情況。</p><p><b> 2.3問題三的分析</b></p><p> 針對問題三,題目要求我們拓展數(shù)據(jù)并對第二問提出的異常數(shù)據(jù)檢測方案進(jìn)行改進(jìn)。 </p><p> ATM機(jī)的交易系統(tǒng)包含有前端和后端的網(wǎng)絡(luò)傳輸。假定分行側(cè)網(wǎng)絡(luò)
20、傳輸節(jié)點故障,使得前端交易無法上送請求,導(dǎo)致整體應(yīng)用系統(tǒng)發(fā)生故障。為了更好的檢測該故障,我們引入網(wǎng)絡(luò)負(fù)載率進(jìn)行分析拓展。當(dāng)ATM機(jī)的數(shù)據(jù)中心后端處理系統(tǒng)異常出現(xiàn)故障時,會引起交易處理緩慢,從而導(dǎo)致系統(tǒng)崩盤。為此,我們設(shè)立了響應(yīng)率來進(jìn)行拓展分析。在我們檢測故障的時候,會發(fā)現(xiàn)在該故障所處的一段時間內(nèi)都為故障點,即該時間段為系統(tǒng)的故障修復(fù)時間。所以我們需要考慮每種故障的修復(fù)時間來更加精準(zhǔn)的檢測系統(tǒng)故障。增加把每筆交易金額的數(shù)量,可以很好的提高
21、異常檢測的正確率,提高交易的正常水平,所以通過交易金額檢測系統(tǒng)故障。</p><p> 所以我們設(shè)立了網(wǎng)絡(luò)負(fù)載率、響應(yīng)率、每種故障的修復(fù)時間及交易金額這四個拓展數(shù)據(jù)和交易量、成功率、響應(yīng)時間同時進(jìn)行考慮和分析,來對異常數(shù)據(jù)挖掘方案進(jìn)行改進(jìn)。</p><p><b> 三.模型假設(shè)</b></p><p> 1、響應(yīng)時間僅與ATM交易數(shù)據(jù)速
22、度有關(guān),而與持卡人的操作水平無關(guān)。</p><p> 2、假設(shè)僅考慮該銀行ATM機(jī)前后端系統(tǒng)應(yīng)用程序故障。</p><p> 3、假設(shè)交易量差異僅與工作日(非工作日),節(jié)假日(非節(jié)假日)有關(guān),不存在洗錢等行為。</p><p> 4、假設(shè)該銀行數(shù)據(jù)中心統(tǒng)計數(shù)據(jù)準(zhǔn)確,無誤。</p><p><b> 四.符號說明</b&
23、gt;</p><p><b> 五.模型建立與求解</b></p><p> 5.1特征參數(shù)的選擇,提取和分析</p><p> 5.1.1特征參數(shù)的選擇</p><p> 問題一要求我們選擇、提取和分析ATM交易狀態(tài)的特征參數(shù)。特征參數(shù)是用于表征物質(zhì)或現(xiàn)象特性的參數(shù)信息,是一組數(shù)據(jù)的數(shù)理特征,有別于題中所給的
24、交易量,成功率和響應(yīng)時間三個指標(biāo),因此,我們選擇每個時刻ATM機(jī)交易量、成功率和響應(yīng)時間的平均值和標(biāo)準(zhǔn)差作為特征參數(shù)進(jìn)行提取和分析。</p><p> 1、特征參數(shù)為的平均值,</p><p><b> ?。?)</b></p><p> 其中為;表示三個指標(biāo)樣本數(shù)目;分別表示時刻交易量、成功率、響應(yīng)時間;分別表示時刻的交易量、響應(yīng)時間、成
25、功率的平均值。 </p><p> 2、 特征參數(shù)為的標(biāo)準(zhǔn)差,</p><p><b> ?。?)</b></p><p> 分別表示時刻的交易量、響應(yīng)時間、成功率的標(biāo)準(zhǔn)差。</p><p> 5.1.2 特征參數(shù)的提取與分析</p><p> 一天當(dāng)中有1440個時間點,需要對每個時間點
26、進(jìn)行特征參數(shù)的提取與分析。現(xiàn)我們提取了每個時間點的交易量、成功率、響應(yīng)時間的特征參數(shù)。根據(jù)題中工作日與非工作日的存在差別的要求,將附件中數(shù)據(jù)分為春節(jié)前、春節(jié)、清明小長假、周六日及工作日五類進(jìn)行分別提取。由于每個時間點提取分析方法一樣,我們?nèi)∪我鈺r刻(如:10:50)求取特征參數(shù)如下: </p><p> 表一:時刻10:50特征參數(shù)表</p><p> 通過對該時刻特征參數(shù)計算結(jié)果的分
27、析可知:</p><p> ?。?)除春節(jié)外,其余各種節(jié)假日的交易量均比工作日低,而春節(jié)前的交易量則比工作日大很多。因為各種假期,隨著人們放假、外出,導(dǎo)致業(yè)務(wù)量減少。而對于春節(jié)前,由于置辦年貨等,開銷增大,ATM機(jī)的業(yè)務(wù)量也隨之上升。</p><p> ?。?)對于成功率,各種節(jié)假日及工作日的成功率都相差不大,且成功率較高,都在0.96附近,標(biāo)準(zhǔn)差接近0,也較穩(wěn)定。</p>
28、<p> (3)對于響應(yīng)時間,各種節(jié)假日及工作日的響應(yīng)時間都相差不大,正常范圍在70—90毫秒之間。</p><p> 除該時刻外,我們對其余時刻特征參數(shù)進(jìn)行計算分析后,得出了與上述相同的結(jié)論</p><p><b> 5.1.3假設(shè)檢驗</b></p><p> 兩總體的方差未知,因此應(yīng)利用利用兩個正態(tài)總體參數(shù)的假設(shè)檢驗對兩
29、個樣本總體期望比較。當(dāng)樣本數(shù)量較多(一般數(shù)據(jù)量大于40)時,統(tǒng)計量趨向于統(tǒng)計量,故現(xiàn)進(jìn)行假設(shè)檢驗。[7]</p><p> 欲檢驗假設(shè), </p><p><b> 將上表數(shù)據(jù)帶入</b></p><p><b> ?。?)</b></p><p> 可得,春節(jié)前、春節(jié)、清明小長假、周六
30、日每個時刻與對應(yīng)工作日的每個時刻統(tǒng)計量的觀測值。取任意時刻(如:10:50)U值觀測值: </p><p> 表二:10:50統(tǒng)計量U值觀測值</p><p> 在本題中,我們選取,查正態(tài)分布分位數(shù)表可得:</p><p> 當(dāng),即觀測值落在拒絕域內(nèi)時,故拒絕原假設(shè),認(rèn)為兩組數(shù)據(jù)存在顯著性差異;當(dāng),即觀測值落在拒絕域外時,故接受原假設(shè),認(rèn)為兩組數(shù)據(jù)不存在顯著性
31、差異。因此,由該時刻的U值綜合分析可得:</p><p> ?。?)對于交易量春節(jié)前、春節(jié)、清明三天小長假與工作日存在顯著性差異,而周六日與工作日不存在顯著性差異。故可推知,在國家法定節(jié)假日與春節(jié)前,交易量較工作日存在差別,其他則為工作日的正常交易量水平;</p><p> ?。?)對于成功率而言,春節(jié)前、春節(jié)、清明三天小長假與工作日不存在顯著性差異;</p><p&g
32、t; ?。?)春節(jié)前的響應(yīng)時間與正常工作日存在顯著性差異,而其他則與工作日不存在顯著性差異。</p><p> 除該時刻外,我們對其余時刻U值進(jìn)行計算分析后,得出了與上述相同的結(jié)論</p><p> 5.2ATM交易異常數(shù)據(jù)檢測方案</p><p> 問題二要求我們設(shè)計一套交易狀態(tài)異常檢測方案,在對該交易系統(tǒng)的應(yīng)用可用性異常情況下能做到及時報警,同時盡量減少虛
33、警誤報。針對題目中提到ATM可能存在的四種故障,我們分析得:這些故障最終都是通過業(yè)務(wù)量、成功率、響應(yīng)時間反應(yīng)出來的。由此,我們以問題一中提取的特征參數(shù)為依據(jù),對這些異常進(jìn)行刻畫。</p><p> 由問題一中的分析可得,工作日與非工作日的交易量存在顯著性差異,表現(xiàn)在國家法定節(jié)假日的交易量等與工作日存在顯著性差別。因此,分別提出對工作日和法定節(jié)假日的異常數(shù)據(jù)檢測方案。對于工作日異常數(shù)據(jù)檢測,由于工作日數(shù)據(jù)較多,因
34、此我們運用基于距離和偏差的異常數(shù)據(jù)點檢測方案。對于法定節(jié)假日的異常數(shù)據(jù)檢測,由于其某時刻的交易量數(shù)據(jù)較少,且與工作日存在顯著的差異性。因此,我們選擇用基于距離與偏差的異常數(shù)據(jù)檢測方案。</p><p> 5.2.1 異常數(shù)據(jù)檢測模型的建立</p><p> 由第一問對兩個樣本的總體均值的假設(shè)檢驗可知:工作日(正常工作日與周六周日)與法定節(jié)假日(春節(jié)、小長假、春節(jié)前夕等)存在顯著性差別,
35、因此,分別確定工作日與法定節(jié)假日的異常檢測方案。</p><p> ?。?)工作日異常點數(shù)據(jù)檢測方案模型建立</p><p> 對于工作日,由于其數(shù)據(jù)量比較大,數(shù)據(jù)的普遍性較強(qiáng),偶然性較弱。因此,我們建立了基于距離和基于偏差方法的異常檢測模型。[3]</p><p> 首先我們建立基于距離的異常數(shù)據(jù)點檢測模型。設(shè)表示時刻的交易量,表示時刻的成功率,表示時刻的響應(yīng)
36、時間。由于之間單位及數(shù)量級之間存在較大差異,所以需要對其進(jìn)行標(biāo)準(zhǔn)化:</p><p><b> (4) </b></p><p><b> ?。?)</b></p><p><b> ?。?)</b></p><p><b> 而此時,標(biāo)準(zhǔn)差</b>
37、</p><p> 定義臨界異常度常數(shù),其均表示一組數(shù)據(jù)的臨界異常程度。</p><p> 對于可疑度,可以用標(biāo)準(zhǔn)差來描述,即:</p><p><b> , ,為常數(shù)</b></p><p><b> 其中:</b></p><p><b> (7)&l
38、t;/b></p><p><b> 當(dāng)</b></p><p><b> ?。?)</b></p><p> 時,可認(rèn)為有可能出現(xiàn)異常。</p><p> 其次,我們建立基于偏差的模型。定義為交易量、成功率、響應(yīng)時間與各自正常水平的偏差,即</p><p>&l
39、t;b> ?。?) </b></p><p><b> 當(dāng)</b></p><p><b> ?。?0)</b></p><p> 時,可認(rèn)為可能出現(xiàn)異常。</p><p> ?。?)法定節(jié)假日異常數(shù)據(jù)點的檢測方案模型建立</p><p> 對于法定
40、節(jié)假日,由上述假設(shè)檢驗可知交易量較工作日有顯著性差別,而成功率與響應(yīng)時間較工作日不存在顯著性差別,因此可將交易量與成功率、響應(yīng)時間引起的異常分開進(jìn)行檢測。對于交易量,由于數(shù)值連續(xù)性強(qiáng),因此我們建立基于鄰域數(shù)據(jù)變化的異常點檢測模型方案。而對于成功率與響應(yīng)時間,我們依舊運用基于距離與偏差的異常檢測點方案。[4]</p><p> 對于非工作日的由于交易量引起的異常,運用基于鄰域數(shù)據(jù)變化的異常點檢測模型方案,其側(cè)重于
41、尋找局部異常點。其理論是,每天的交易量隨時間變化是連續(xù)的,交易量隨時間的變化應(yīng)該是一條光滑連續(xù)的曲線,出現(xiàn)突變點的概率幾乎為0;因此出現(xiàn)突變點,其極可能出現(xiàn)異常,特別是對于出現(xiàn)驟降的數(shù)據(jù)。因此,我們計算后一個時刻與前一個時刻的變化量:[5]</p><p><b> ?。?1)</b></p><p> 當(dāng)大于某一值時,即時刻比時刻下降太多時,時刻就是異常可疑點,定
42、義為異常度,它表示某時刻的臨界異常度。因此,當(dāng)</p><p><b> (12)</b></p><p> 時,可認(rèn)為該點位異常點。</p><p> 而對于非工作日由于成功率與響應(yīng)時間引起的異常,運用基于距離與偏差的異常檢測點方案。</p><p> 由于單位及數(shù)量級存在較大差異,所以需要對其進(jìn)行標(biāo)準(zhǔn)化:&l
43、t;/p><p><b> ?。?3)</b></p><p><b> ?。?4)</b></p><p><b> 即當(dāng)</b></p><p><b> (15)</b></p><p><b> 時,該點為可疑點
44、。</b></p><p> 對于查找出的可疑異常點,我們運用基于偏差的方法進(jìn)一步檢測,即當(dāng)</p><p><b> (16)</b></p><p> 時,該點就可以被認(rèn)為可能是異常點。[6]</p><p> ?。?)臨界異常度的確定</p><p> 對于在上述模型中定
45、義的臨界異常度常數(shù),其表示每組數(shù)據(jù)的臨界異常程度,為確定異常度值大小,我們需要將對應(yīng)每組數(shù)據(jù)進(jìn)行正態(tài)性檢驗。[7]</p><p> 單樣本的K-S檢驗可以用來檢驗?zāi)骋粯颖緮?shù)據(jù)分布是否與正態(tài)分布相吻合,方法簡單,快速。在這里,我們通過單樣本的K-S檢驗進(jìn)行數(shù)據(jù)的正態(tài)性檢驗。K-S檢驗過程如下:[8]</p><p><b> 建立原假設(shè):</b></p>
46、;<p> ?。悍枪ぷ魅战灰琢孔兓砍收龖B(tài)分布。</p><p> ?。悍枪ぷ魅战灰琢孔兓坎怀收龖B(tài)分布。</p><p> 我們假定非工作日交易量變化量經(jīng)驗分布為正態(tài)分布,并設(shè)為該組數(shù)據(jù)的經(jīng)驗分布函數(shù),定義為階梯函數(shù):</p><p><b> ?。?7)</b></p><p><b>
47、的值小于等于x。</b></p><p> 將中的數(shù)據(jù)從小到大排列,計算經(jīng)驗累積分布和理論累積分布,記作</p><p><b> ?。?8)</b></p><p> 構(gòu)造K-S檢驗統(tǒng)計量,最終求得P值,求解過程如下:</p><p> 將五組數(shù)據(jù)通過Excel計算出來,然后導(dǎo)入到SPSS當(dāng)中,分開進(jìn)
48、行單樣本的K-S檢驗,求得對應(yīng)的P值。[2]</p><p> 表三:非工作日交易量SPSS處理數(shù)據(jù)表</p><p> 在這里我們?nèi)★@著性水平為SPSS中的默認(rèn)值為0.05。</p><p> SPSS計算得非工作日交易量的P值即顯著性水平為分別為0.125,0.169,0.108,均大于0.05,則不能拒絕,即認(rèn)為三種情況下非工作日交易量變化量呈正態(tài)分布。
49、</p><p> 同理,我們對四組數(shù)據(jù)采取同樣的方法進(jìn)行正態(tài)性檢驗,結(jié)果見下表,</p><p> 表四:對進(jìn)行的K-S檢驗P值</p><p> 若值過大,或顯著性值太小,則拒絕原假設(shè);反之,不能拒絕。我們發(fā)現(xiàn)各異常度對應(yīng)數(shù)據(jù)得出顯著性水平P值均大于0.05,由此可認(rèn)為五組數(shù)據(jù)均服從正態(tài)分布。對于臨界異常度,我們根據(jù)原則,由于在工程中,常取作為正常數(shù)據(jù)的隨
50、機(jī)誤差區(qū)間,即當(dāng)數(shù)據(jù)處于之外時,可認(rèn)為該數(shù)據(jù)并非隨機(jī)誤差,而屬于異常數(shù)據(jù),即數(shù)據(jù)對應(yīng)時刻ATM機(jī)發(fā)生異常。</p><p> 5.2.2異常數(shù)據(jù)點的求解</p><p> ?。?)工作日異常數(shù)據(jù)點的檢測方案模型求解</p><p> 一天當(dāng)中有1440個時間點,我們需要對每個時間點進(jìn)行數(shù)據(jù)異常點的檢測來驗證上述異常檢測方案。 </p><p&
51、gt; 我們?nèi)∶刻烊我鈺r刻(如:10:50)的三個指標(biāo),利用SPSS對該時刻的數(shù)據(jù)標(biāo)準(zhǔn)化后,對于式(9),根據(jù)原則取為3,,對于各個特征點,其基于距離的異常檢驗的分析,編寫程序有MATLAB求解可得到效果圖如下:</p><p> 圖二.10:50異常檢測圖 </p><p> 在圖中,球心是原點,表示交易量、成功率及響應(yīng)時間的正常水平,而球面表示異常度K,越靠近球心
52、,說明它越正常,圖中大部分的點都是落在球心附近的。它遠(yuǎn)離球心,表明它某個或某幾個因素偏離其對應(yīng)的正常水平,即表現(xiàn)異常。對于式(8),可以取為3,得到球的半徑為,即異常度為,因此我們可以認(rèn)為,在球心外面的為異??梢牲c,需要根據(jù)式(10)來進(jìn)一步判斷其是否為異常點??梢院Y選出來的部分可疑異常點如下表:</p><p> 表五:部分工作日可疑異常點數(shù)據(jù)</p><p> 根據(jù)式(10),利用
53、基于偏差檢測的方法,對找出的可疑點進(jìn)行檢測。當(dāng)某個時刻交易量比正常水平的交易量小于臨界異常度時,在該時刻,有99.7%的概率被認(rèn)為是異常數(shù)據(jù)。同理,當(dāng)成功率比正常成功率小于、交易響應(yīng)時間比正常響應(yīng)時間大于,99.7%的概率可判斷該時刻出現(xiàn)了異常。從可而找出,ATM機(jī)交易的異常時刻。</p><p> 由此,可以推知題中所給數(shù)據(jù)的部分異常點,如下:</p><p> 表六:部分工作日典型
54、異常點數(shù)據(jù)</p><p> 由此便可得到所有時刻的異常數(shù)據(jù)。表中1、10、11、12組數(shù)據(jù)交易量出現(xiàn)了陡降,而導(dǎo)致了異常;4—9組數(shù)據(jù)中,因成功率較低且響應(yīng)時間長而出現(xiàn)了異常;10—13組因成功率較低而異常; 2、3組數(shù)據(jù)因響應(yīng)時間過長而出現(xiàn)異常; </p><p> (2)非工作日異常數(shù)據(jù)點的檢測方案模型求解 </p><p> 利用節(jié)假日的異常數(shù)據(jù)檢測方
55、案,可以找出一些異常數(shù)據(jù),如下表:</p><p> 表七:部分非工作日異常點數(shù)據(jù)</p><p> 表中數(shù)據(jù)為法定節(jié)假日春節(jié)、春節(jié)前(因假設(shè)檢驗得出其交易量等與正常工作日的存在顯著性差異)小長假的異常數(shù)據(jù)。表中1-5組中為交易量異常,其表示該時刻的交易量較前一個時刻出現(xiàn)了驟降突變,驟降突變大于了平均變化的,因此,被檢測為異常數(shù)據(jù)。而對于6-36、38、40-43組為成功率異常,其成功
56、率普遍在0.8以下,較平均水平0.95相差大于,因此其99.7%的概率被確認(rèn)為異常數(shù)據(jù)。而37-39組中,其響應(yīng)時間較正常情況下的時間來說過長,有的甚至達(dá)到了1328.28,較正常水平相差大于,因此這些數(shù)據(jù)被認(rèn)為是異常數(shù)據(jù)。</p><p> 5.2.3虛警誤報率模型的建立與分析</p><p> 對于上述提到的異常數(shù)據(jù)檢測方案,我們通過建立預(yù)測模型,預(yù)測每一時刻的數(shù)值并與上述異常檢測
57、方案中確定的正常區(qū)間比較,來求得虛警誤報率,以此驗證該模型。</p><p> ?。?)時間序列模型的建立。</p><p> 時間序列是按時間順序排列的、隨時間變化且相互關(guān)聯(lián)的一組數(shù)據(jù)序列。通過作交易量的散點圖,發(fā)現(xiàn)交易量隨時間作周期性變化,故考慮建立時間序列模型來進(jìn)行預(yù)測。首先,對交易量的數(shù)據(jù)進(jìn)行預(yù)處理,然后選擇合適的方法建立時間序列模型。</p><p>&
58、lt;b> ①時間序列的預(yù)處理</b></p><p> 通過繪制交易量的序列圖、樣本自相關(guān)系數(shù)圖等對其進(jìn)行直觀分析和相關(guān)分析:</p><p> 圖三:交易量的序列圖</p><p> 從圖中可以看出,該序列有明顯周期性,且隨時間按一定規(guī)律變化。然后SPSS軟件進(jìn)行相關(guān)性分析,如下表所示;</p><p> 表八
59、:交易量的相關(guān)性分析</p><p> 從表中可以得出:在SPSS中給出了不同滯后期的樣本自相關(guān)系數(shù)的值(自相關(guān)系數(shù)列),樣本自相關(guān)系數(shù)的標(biāo)準(zhǔn)誤差(標(biāo)準(zhǔn)誤差列),以及Box-ljung 統(tǒng)計量的值、自由度和相伴概率。通過標(biāo)準(zhǔn)誤差值以及Box-ljung 統(tǒng)計的相伴概率都可以說該時間序列不是白噪聲,是具有自相關(guān)性的時間序列。</p><p> 在SPSS中畫出了自相關(guān)系數(shù)圖。圖中的橫軸為
60、滯后期,縱軸為樣本自相關(guān)系數(shù)。圖中用條形形狀來表示樣本自相關(guān)系數(shù),并畫出了95%的置信上下限的線條。</p><p> 圖四:交易量的自相關(guān)系數(shù)圖</p><p> 從圖中可以看出該時間序列的自相關(guān)系數(shù)較平穩(wěn)的,其衰減速度比較慢,不是平穩(wěn)時間序列。</p><p> ?、跁r間序列預(yù)測模型的建立</p><p> 通過上述分析,我們采用指
61、數(shù)平滑法進(jìn)行建立模型:</p><p><b> 而初始值:</b></p><p> 對于比例系數(shù),因為此時間序列具有迅速且明顯的變動傾向,則應(yīng)取大一點,如(0.6-0.8),使預(yù)測模型靈敏度高一些,以便迅速跟上數(shù)據(jù)的變化。</p><p> ?、厶摼`報率模型的建立</p><p> 通過SPSS對附件中的數(shù)據(jù)
62、的交易量進(jìn)行預(yù)測,則可以得到每一時刻的預(yù)測值,將某一時刻的預(yù)測值與該時刻正常水平范圍進(jìn)行比較,從而建立虛警誤報率的模型:</p><p> 現(xiàn)隨機(jī)抽取一些時刻點,對模型進(jìn)行檢驗,結(jié)果如下表所示:</p><p><b> 表九:數(shù)據(jù)的統(tǒng)計</b></p><p> 在抽取的1332個數(shù)據(jù)點后,進(jìn)行檢驗,其中預(yù)測該時刻正常而實際也正常的有1
63、276個數(shù)據(jù)點,預(yù)測異常而實際正常(即虛警)的數(shù)據(jù)點有14個,預(yù)測正常而實際異常(即誤報)的數(shù)據(jù)點的數(shù)據(jù)點為12個,預(yù)測異常實際也是異常的數(shù)據(jù)點為30個。</p><p> 根據(jù)上述數(shù)據(jù),可求得虛警率、誤報率、正常報告率如下表所示:</p><p><b> 表十:虛警誤報率</b></p><p> 從表中可以得出,正常匯報率的概率高達(dá)
64、0.98,而虛警率、誤報率則分別為0.011、0.009,所以我們的模型能及時起到預(yù)測報警的作用。</p><p> (2)虛警誤報率的降低</p><p> 在異常檢測方案中,其臨界值是根據(jù)標(biāo)準(zhǔn)差確定的,當(dāng)增大標(biāo)準(zhǔn)差前面的系數(shù)時,犯錯誤的概率得到降低。因此,可通過增大的系數(shù)及提高值來降低虛警誤報的概率。</p><p> 同時,預(yù)測的準(zhǔn)確性也會影響虛警誤報率
65、的大小,因此,正確的預(yù)測也是降低虛警誤報率的一種可靠途徑。</p><p> 5.3 拓展數(shù)據(jù)及檢測方案的改進(jìn)</p><p> 問題三要求我們在一、二問的基礎(chǔ)上,設(shè)想可增加的數(shù)據(jù),為減少在對該交易系統(tǒng)的應(yīng)用可用性異常虛警誤報的情況,提升異常檢測方案的性能。因此,我們通過設(shè)立網(wǎng)絡(luò)負(fù)載率、響應(yīng)率及每種故障的修復(fù)時間來對異常數(shù)據(jù)挖掘方案進(jìn)行改進(jìn)。</p><p>
66、 5.3.1 數(shù)據(jù)的拓展</p><p><b> (1)網(wǎng)絡(luò)負(fù)載率</b></p><p> ATM機(jī)的交易系統(tǒng)包含有前端和后端的網(wǎng)絡(luò)傳輸。假定分行側(cè)網(wǎng)絡(luò)傳輸節(jié)點故障,使得前端交易無法上送請求,導(dǎo)致整體應(yīng)用系統(tǒng)發(fā)生故障。為了更好的檢測該故障,我們引入網(wǎng)絡(luò)負(fù)載率進(jìn)行數(shù)據(jù)拓展。</p><p> 網(wǎng)絡(luò)負(fù)載率是描述當(dāng)前網(wǎng)絡(luò)狀態(tài)的重要標(biāo)志。我們
67、定義:</p><p><b> (23)</b></p><p> 如果交易時網(wǎng)絡(luò)負(fù)載率是0,就意味著網(wǎng)絡(luò)屬于完全空閑狀態(tài),即前端交易無法上傳請求;而當(dāng)網(wǎng)絡(luò)負(fù)載率為100%時,網(wǎng)絡(luò)已經(jīng)滿負(fù)荷運轉(zhuǎn),即傳輸網(wǎng)絡(luò)出現(xiàn)故障。</p><p><b> (2)響應(yīng)率</b></p><p> 當(dāng)AT
68、M機(jī)的數(shù)據(jù)中心后端處理系統(tǒng)異常(如操作系統(tǒng) CPU 負(fù)荷過大)出現(xiàn)故障時,會引起交易處理緩慢,從而導(dǎo)致系統(tǒng)崩盤。為此,我們設(shè)立了響應(yīng)率來進(jìn)行拓展分析。定義如下:</p><p><b> ?。?4)</b></p><p> ATM機(jī)交易過程中,響應(yīng)率越高,則說明系統(tǒng)越正常。但當(dāng)響應(yīng)率低于一定值的時候,系統(tǒng)檢測出異常,即數(shù)據(jù)中心后端處理系統(tǒng)異常。</p>
69、<p> ?。?)每種故障的修復(fù)時間</p><p> 在我們檢測故障的時候,會發(fā)現(xiàn)在該處的一段時間內(nèi)都為故障點,即該時間段則為系統(tǒng)的故障修復(fù)時間。所以我們需要考慮每種故障的修復(fù)時間來更加精準(zhǔn)的檢測系統(tǒng)故障。</p><p><b> ?。?)每筆交易金額</b></p><p> 對于ATM機(jī)不同交易金額,其對應(yīng)的正常響應(yīng)時
70、間也不相同:交易金額較大時,其對應(yīng)的正常響應(yīng)時間較大;而交易金額較小時,其對應(yīng)的正常響應(yīng)時間較小。增加把每筆交易金額的數(shù)量,可以很好的提高異常檢測的正確率,提高交易的正常水平。</p><p> 5.3.2基于問題一、二的改進(jìn)</p><p> 我們設(shè)立了網(wǎng)絡(luò)負(fù)載率、響應(yīng)率、每種故障的修復(fù)時間及每筆交易金額這四個拓展數(shù)據(jù)和交易量、成功率、響應(yīng)時間同時進(jìn)行考慮和分析,來對異常數(shù)據(jù)挖掘方案
71、進(jìn)行改進(jìn)。</p><p> 基于第二問的距離和偏差方法的異常檢測模型,我們可得到異常數(shù)據(jù)點,即可疑點。結(jié)合我們在第三問給出的四個拓展數(shù)據(jù),再對第二問找出的異常數(shù)據(jù)點進(jìn)行可疑性分析,從而篩選出真正的異常數(shù)據(jù)點,以減少誤報的情況。</p><p><b> 六.靈敏度分析</b></p><p> 問題提出的異常檢測方案中,提出了異常度來刻
72、畫數(shù)據(jù)的異常程度,當(dāng)數(shù)據(jù)達(dá)到臨界異常度時,就可認(rèn)為該時刻數(shù)據(jù)。而臨界異常度則是根據(jù)一般工程3原則確定,現(xiàn)分別對工作日,和法定節(jié)假日的異常度做靈敏度分析,得到如下表格:</p><p> 表九:工作日模型靈敏度分析</p><p> 表十:非工作日模型靈敏度分析</p><p> 對比不同的異常度,可知被檢測出的異常數(shù)據(jù)點變化并不大。所以對于問題二中檢測出的異常
73、數(shù)據(jù)較準(zhǔn)確,誤報率較低。</p><p> 七、模型的評價與改進(jìn)</p><p><b> 7.1模型的優(yōu)點</b></p><p> (1)將工作日與非工作日、業(yè)務(wù)低谷和業(yè)務(wù)高峰的數(shù)據(jù)分開處理,分別考慮他們的特殊性,可以提高結(jié)果的可靠性。</p><p> ?。?)問題二中將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,有效減少了在提取異常數(shù)
74、據(jù)時的平方誤差,獲得了更好的效果。</p><p> (3)運用基于距離與偏差的方法檢測工作日的異常點數(shù)據(jù),不僅簡單,而且正確率較高。</p><p> ?。?)運用基于鄰域的處理方法去檢測非工作日交易量的異常點數(shù)據(jù),有利于提高異常數(shù)據(jù)檢測的正確率。</p><p><b> 7.2模型的缺點</b></p><p>
75、; ?。?)在挖掘異常數(shù)據(jù)時,將所有時刻數(shù)據(jù)進(jìn)行挖掘,計算繁瑣。</p><p> (2)本模型中基于距離的方法只能檢測出全局的異常數(shù)據(jù),不適合具有多種密度的數(shù)據(jù)集,因此不能很好地檢測出局部的異常。</p><p><b> 7.3模型的改進(jìn)</b></p><p> 我們的模型在保證數(shù)據(jù)完整的基礎(chǔ)上簡化了ATM機(jī)日常交易的特征參數(shù),是的
76、數(shù)學(xué)描述更加簡單直觀,但實際上還有部分異常數(shù)據(jù)與ATM記得交易特征有關(guān),而且是應(yīng)該考慮的。獲取更多的數(shù)據(jù),選擇更合理的數(shù)據(jù)挖掘方式,這是我們努力的方向。</p><p><b> 八、參考文獻(xiàn)</b></p><p> [1]柴洪峰等.基于數(shù)據(jù)挖掘的異常交易檢測方法[M]計算機(jī)應(yīng)用與軟件.2013.1</p><p> [2]袁新生等,L
77、ingo和Excel在數(shù)學(xué)建模中的應(yīng)用[M],北京:科學(xué)出版社,2007</p><p> [3]王燾等,一種基于自適應(yīng)檢測的云計算系統(tǒng)故障檢測方法[M],計算機(jī)學(xué)報,2016.39卷</p><p> [4]喻煒等,基于交易網(wǎng)絡(luò)特征向量中心度量的可疑洗錢識別系統(tǒng)[M],計算機(jī)應(yīng)用,2009.1</p><p> [5]趙澤茂等,基于距離的異常數(shù)據(jù)挖掘算法及其
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 深圳杯b題論文-關(guān)于atm機(jī)異常檢測的數(shù)學(xué)模型
- 【數(shù)學(xué)與應(yīng)用數(shù)學(xué)】論文——玻璃杯移動問題的數(shù)學(xué)模型
- 2015年深圳杯a題論文
- 2015年深圳杯a題論文
- 2013深圳杯d題建模論文
- 深圳杯數(shù)學(xué)建模大賽b題論文-對布袋除塵系統(tǒng)運行穩(wěn)定性的研究
- 深圳杯數(shù)學(xué)建模大賽b題論文-對布袋除塵系統(tǒng)運行穩(wěn)定性的研究
- 數(shù)學(xué)模型畢業(yè)論文
- 各種壓縮機(jī)數(shù)學(xué)模型
- 深圳杯論文
- 關(guān)于sars傳播和影響的數(shù)學(xué)模型
- 關(guān)于除雪機(jī)除雪模型的數(shù)學(xué)建模論文
- 【數(shù)學(xué)與應(yīng)用數(shù)學(xué)】論文——排球扣殺的數(shù)學(xué)模型
- b型超聲預(yù)測胎兒體重的數(shù)學(xué)模型
- 關(guān)于ATM機(jī)隔間內(nèi)尾隨檢測算法的研究.pdf
- 關(guān)于保費問題的數(shù)學(xué)模型及預(yù)測.pdf
- 關(guān)于飛機(jī)價格預(yù)測的數(shù)學(xué)模型研究
- 【數(shù)學(xué)與應(yīng)用數(shù)學(xué)】論文——草地水量問題的數(shù)學(xué)模型
- 【數(shù)學(xué)與應(yīng)用數(shù)學(xué)】論文——水庫排污問題的數(shù)學(xué)模型
評論
0/150
提交評論