基于大數(shù)據(jù)的動車組故障關聯(lián)關系規(guī)則挖掘算法研究與實現(xiàn).pdf_第1頁
已閱讀1頁,還剩60頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、動車組作為完成鐵路高速運輸生產(chǎn)任務最重要的移動設備,是高新技術的集成體。與傳統(tǒng)機車車輛相比動車組在車輛結構上有很大的不同,而且其運行速度是傳統(tǒng)機車車輛所不可及的。在其運營過程中,故障管理和檢修是高速鐵路系統(tǒng)綜合保障工程中的重要組成部分,是確保實現(xiàn)動車組安全運行,高效率使用的必要保障。在檢修過程中,修程修制又起著指導性、關鍵性的作用,而且合理完善的修程修制是保證高速動車組快速、安全、舒適、高效運行的基本前提。然而,對安全問題的重視,無疑會

2、造成動車組復雜的維修流程,這對于提升效率自然會是一個極大的影響。要提高動車組的維修效率,一方面是深入對動車組構造的理論研究;另一方面,在過去積累的大量動車組數(shù)據(jù)中包含著尚未發(fā)掘的有價值的信息。而隨著大數(shù)據(jù)相關技術的成熟,這些數(shù)據(jù)的價值也日益凸顯。為了使這些數(shù)據(jù)得到很好的利用,要從海量的故障數(shù)據(jù)中獲取其中隱含的故障關聯(lián)信息,以達到較早發(fā)現(xiàn)故障的目的。
  維修的策略主要有3種:周期修,狀態(tài)修和事后修。其中周期修是目前最為主要的一種方

3、式,將維修等級分成五級,列車服役一定的時間或里程后就會進行相應的維修,更換一些對應的部件。此方法中,維修周期是根據(jù)專家經(jīng)驗確定的,為了保證安全所以有一定的余地。這樣雖然保證了安全,但是會陷入到過度修的情況中,即列車上某部件健康情況良好卻依然被更換,導致運維成本提高。事后修則是另一種極端,即當部件完全失效時再進行更換,這顯然是不可取的方案。故而就提出了折中的狀態(tài)修方案,根據(jù)部件當前的工作狀態(tài),判斷其損壞程度,在其將要損壞時進行更換,從而既

4、保證了運輸安全,又降低成本的目的。
  目前在我國的鐵路事業(yè)中,大數(shù)據(jù)分析技術已經(jīng)運用到了一些領域中:基于Hadoop平臺設計并實現(xiàn)了一種分析和處理動車組振動數(shù)據(jù)的方案,用于消除高鐵振動數(shù)據(jù)中的線性漂移,發(fā)現(xiàn)數(shù)據(jù)中的異常點,通過數(shù)據(jù)分布情況判斷列車部件故障的類型。基于Hadoop平臺,通過分析歷史車流數(shù)據(jù)來高效準確的推算車流;提出了一種構建動車組數(shù)據(jù)倉庫的思路。其中也包括動車組故障數(shù)據(jù)的相關部分,可以說大數(shù)據(jù)分析對于龐大的鐵路系統(tǒng)

5、來說是未來的發(fā)展方向,并且也已經(jīng)在動車組的運營管理的某些領域中得到了應用。隨著動車組維修領域的需求日益增長,動車組故障檢修方面也必將需要大數(shù)據(jù)分析技術的支持。
  大數(shù)據(jù)數(shù)據(jù)挖掘過程一般由數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式評估和知識表示這幾個階段組成。在具體挖掘過程中,需要這幾個階段的反復執(zhí)行。數(shù)據(jù)挖掘主要分為關聯(lián)模式挖掘,聚類模式挖掘,決策樹模式挖掘等;而本文的主要工作:關聯(lián)規(guī)則挖掘,主要分為挖掘頻繁模式和根據(jù)頻繁模式

6、生成關聯(lián)規(guī)則兩步。其中關聯(lián)規(guī)則的生成較為簡單,所以影響關聯(lián)規(guī)則算法效率的主要步驟是頻繁模式的挖掘,也是區(qū)分諸多算法效率的核心問題。因此在頻繁模式挖掘方面取得的任何進展都將對關聯(lián)規(guī)則以至于其他的數(shù)據(jù)挖掘任務的效率產(chǎn)生重要影響。
  綜上所述,本文通過在分布式計算平臺上實現(xiàn)關聯(lián)關系規(guī)則算法,用于分析動車組故障數(shù)據(jù)。填補我國目前動車組運維方面的不足。
  最早的關聯(lián)規(guī)則算法可以追溯到1993年,名叫AIS算法。但由于該算法效率過低

7、,在由Agrwal等人的改進后提出了Apriori算法,特點是使用了逐層搜索的迭代思路來找出事務數(shù)據(jù)庫中的頻繁項集,相較于AIS其效率大大的提高。作為一種經(jīng)典算法,后來的許多算法比如AprioriHybrid等算法皆是依據(jù)它改進而來的。
  Apriori算法主要通過兩個頻繁項集的重要特性,使得整個算法的效率提升:如項目集R是頻繁項集,則其子集也是頻繁項集;如R不是頻繁項集,則其超集都是非頻繁項集。通過這兩個性質(zhì),可以有效的減少頻

8、繁項集的產(chǎn)生。
  Apriori算法使用的是一種迭代方法,叫做逐層搜索,其中k項集用于探索(k+1)項集。首先,掃描數(shù)據(jù)庫,累積每個單獨項的計數(shù),并記錄每個滿足最小支持度的項,即找出頻繁1項集的集合,記為L1。然后根據(jù)這個找出L2,即頻繁2項集的集合。以此類推,只到不能再找到頻繁k項集。一次數(shù)據(jù)庫的完整掃描只能完成一次找出Lk的操作。
  除了在故障診斷方面Apriori算法能發(fā)揮巨大的作用之外,該算法在商業(yè),價格分析等領

9、域中都得到了廣泛的應用。該算法具有直觀,簡便易于實現(xiàn)等特點,同樣也有候選項集多,數(shù)據(jù)庫掃描次數(shù)多等方面的不足??梢哉f是優(yōu)點與缺點同樣明顯。本文根據(jù)算法的缺點進行了改進,考慮從蟻群優(yōu)化和布隆過濾器兩種思路對算法的性能做出優(yōu)化,主要是在產(chǎn)生關聯(lián)關系的中間過程中消除一些冗余,使得算法能更加快速的執(zhí)行。并對比算法之間的性能,選取性能更優(yōu)的算法用于進一步工作;
  另一方面,為了更好的分析數(shù)據(jù),就要使用大數(shù)據(jù)工具,才能高效,合理的進行計算。

10、本文對于大數(shù)據(jù)平臺Hadoop進行深入研究,包括分布式文件系統(tǒng)(Hadoop Distributed File System)以及Spark框架。
  HDFS作為主流的分布式存儲系統(tǒng),主要有以下優(yōu)點:
 ?、贁U容能力:能更可靠的存儲和處理PB級的數(shù)據(jù);
  ②成本低:可以通過普通機器組成的服務群來分發(fā)以及處理數(shù)據(jù),這些服務器總計可達數(shù)千個節(jié)點。
 ?、鄹咝?通過分發(fā)數(shù)據(jù)和備份數(shù)據(jù),Hadoop可以在數(shù)據(jù)所在的

11、節(jié)點上并行的處理他們。
 ?、芨呷蒎e性:在面對數(shù)據(jù)可能損害或出錯時,不是采用使用更好的機器以防止出錯這種策略,而是提供了一種機制,使得普通機器節(jié)點上的數(shù)據(jù)損壞出錯后也能很好的處理??梢哉f,HDFS是面向一種數(shù)據(jù)高出錯率的一種解決方案。這種容錯性高的特點可以保證數(shù)據(jù)安全可靠更可以使其可以部署在一般的普通商業(yè)機器上。
  Spark是一個基于內(nèi)存計算的開源的集群計算系統(tǒng),目的是讓數(shù)據(jù)分析更加快速。Spark非常小巧玲瓏,由加州伯

12、克利大學AMP實驗室的Matei為主的小團隊所開發(fā)。Spark是一種與Hadoop相似的開源集群計算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使Spark在某些工作負載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負載。Spark是在Scala語言中實現(xiàn)的,它將Scala用作其應用程序框架。與Hadoop不同,Spark和Scala能夠緊密集成,其中的Scala

13、可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。盡管創(chuàng)建Spark是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實際上它是對Hadoop的補充,可以在Hadoop文件系統(tǒng)中并行運行。
  最后,以關聯(lián)規(guī)則算法和大數(shù)據(jù)平臺為基礎,將前期理論知識和動車組故障數(shù)據(jù)相結合,確定故障關聯(lián)規(guī)則的挖掘方案。最終達到高速準確的挖掘動車組故障關聯(lián)規(guī)則的目的,為管理部門制定更加完善,合理的動車組維修流程提供優(yōu)化建議。隨著動車組的大規(guī)模應用,維修管理規(guī)程得

14、到了補充,修訂和完善。使得檢修計劃和作業(yè)流程得到調(diào)整優(yōu)化,但由于尚在起步階段,檢修計劃會隨著鐵路建設,部件壽命等變動而調(diào)整。所以,很多方面我國仍處于研究階段。我國大數(shù)據(jù)分析主要面對的問題是投入產(chǎn)出比不高,消耗的資源較高但是沒有產(chǎn)生應有的效應。但從長遠來看,隨著相關行業(yè)的規(guī)范化和各行業(yè)原始數(shù)據(jù)的積累,大數(shù)據(jù)分析的前景必定廣闊。
  本論文“基于大數(shù)據(jù)的動車組故障關聯(lián)關系規(guī)則挖掘算法研究與實現(xiàn)”是基于動車組運維數(shù)據(jù)來實現(xiàn)動車組故障知識

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論