第十一章 序列模式挖掘_第1頁
已閱讀1頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、第十一章 序列模式挖掘,序列挖掘或稱序列模式挖掘,是指從序列數據庫中發(fā)現(xiàn)蘊涵的序列模式。時間序列分析和序列模式挖掘有許多相似之處,在應用范疇、技術方法等方面也有很大的重合度。但是,序列挖掘一般是指相對時間或者其他順序出現(xiàn)的序列的高頻率子序列的發(fā)現(xiàn),典型的應用還是限于離散型的序列。序列模式挖掘最早是由Agrawal等人提出的,它的最初動機是針對帶有交易時間屬性的交易數據庫中發(fā)現(xiàn)頻繁項目序列以發(fā)現(xiàn)某一時間段內客戶的購買活動規(guī)律。近年來

2、序列模式挖掘已經成為數據挖掘的一個重要方面,其應用范圍也不局限于交易數據庫,在DNA分析等尖端科學研究領域、Web訪問等新型應用數據源等眾多方面得到針對性研究。,一、序列模式的概念及定義,舉例說明,比如有顧客租借錄像帶,典型的順序是先租“星球大戰(zhàn)”,然后是“帝國反擊戰(zhàn)”,再是“杰達武士歸來”(這三部影片是以故事發(fā)生的時間先后而情節(jié)連續(xù)的)。值得注意的是租借這三部電影的行為并不一定需要是連續(xù)的。在任意兩部之間隨便插租了什么電影,仍然還是滿

3、足了這個序列模式,并且擴展一下,序列模式的元素也可以不只是一個元素(如一部電影),它也可以是一個項集(item set)。項集,指的是多個物品組成的集合,內部元素不分排列順序,比如“枕頭和枕頭套”就可以看作是由兩個項(item)組成的項集,它也可以作為某一個序列模式的元素。,相關概念及定義,以商品交易為例子,數據源是一個給定的由客戶交易組成的大型數據庫,每個交易由客戶號(customer-id),交易時間以及在交易中購買的項組成。項

4、集(itemset):由項(item)組成的一個非空集合。序列(sequence):是一列排好序的項集。,不失一般性假定項集中的項由一些連續(xù)整數代替,這樣一個項集i可以表示為(i1,i2…im),而這里的ij代表了一個項。一個序列s可以表示為,這里的sj代表的是一個項集。,序列挖掘—基本概念,定義11-1 一個序列(Sequence)是項集的有序表,記為α=α1→α2→?→αn,其中每個αi是一個項集(Itemset)。一個序列的長度

5、(Length)是它所包含的項集。具有k長度的序列稱為k-序列。定義11-2 設序列α=α1→α2→?→αn,序列β=β1→β2→?→βm 。若存在整數i1<i2<?<in,使得 , 則稱序列α是序列β的子序列,或序列β包含序列α。在一組序列中,如果某序列α不包含其他任何序列中,則稱α是該組中最長序列(Maximal sequence)。,,最大序列,,兩個序列A= 和B= ,如果存在整數i1包含于序列,因

6、為(3)包含于(3,8),(4,5)包含于(4,5,6)以及(8)包含于(8)。但是序列不包含于,反之亦然。前者表示項3和項5是先后購買的,而后者則表示項3和項5是同時購買的,這就是區(qū)別所在。,序列挖掘—基本概念,定義11-3 給定序列S,序列數據庫DT,序列S的支持度(Support)是指S在DT中相對于整個數據庫元組而言所包含S的元組出現(xiàn)的百分比。支持度大于最小支持度(min-sup)的k-序列,稱為DT上的頻繁k-序列。,相關概念

7、及定義,客戶序列一個數據庫中的交易記錄可以表示成上表,一個客戶所有的事務可以綜合的看成是一個序列,每一個事務都由相應的一個項集來表示。事務按交易時間序排列成一個序列。稱這樣的序列為客戶序列。通常,將一個客戶的交易按交易時間排序成T1 ,T2 ,……,Tn。Ti中的項集定義成itemset(Ti)。這樣,這個客戶的客戶序列成了這樣的一個序列:〈itemset(T1) itemset(T2) … itemset(Tn)〉。

8、,,序列挖掘—數據源的形式(續(xù)),,表6-2顧客序列表示例,操作系統(tǒng)及其系統(tǒng)進程調用是評價系統(tǒng)安全性的一個重要方面。通過對正常調用序列的學習可以預測隨后發(fā)生的系統(tǒng)調用序列、發(fā)現(xiàn)異常的調用。因此序列挖掘是從系統(tǒng)調用等操作系統(tǒng)審計數據中發(fā)現(xiàn)有用模式的一個理想的技術。表給出了一個系統(tǒng)調用數據表示意,它是利用數據挖掘技術進行操作系統(tǒng)安全性審計的常用數據源。表 系統(tǒng)進程調用數據示例,表 系統(tǒng)調用序列數據表示例,相關概念及定義,序列模式如果一個

9、序列s包含于一個客戶序列中,則稱該客戶支持序列s。一個序列的支持度定義為支持該序列的客戶總數。給定一個由客戶交易組成的數據庫D,挖掘序列模式的問題是:在那些具有客戶指定最小支持度的序列中找出最大序列。而這樣的最大序列就代表了一個序列模式。,示例,對于最小支持數為2的情況,有兩個序列: 和 在那些滿足支持度約束的序列中是最大的,也是我們所需的序列模式。,序列挖掘算法,步驟 1) 排序階段。數據庫D以客戶號為

10、主鍵,交易時間為次鍵進行排序。這個階段將原來的事務數據庫轉換成由客戶序列組成的數據庫。 2) 頻繁項集階段。找出所有頻繁項集組成的集合L。也同步得到所有頻繁1-序列組成的集合。 3) 轉換階段。在找序列模式的過程中,要不斷地進行檢測一個給定的頻繁集是否包含于一個客戶序列中。 4) 序列階段利用已知的頻繁集的集合來找到所需的序列。類似于關聯(lián)的Apriori算法。,算法示例,1) 在給出的數據庫中,找出所有頻繁1-序列組成的集合:

11、 和 2) 給一個可行的映射。,好處:將頻繁集按一個實體的形式進行處理,可以帶來比較和處理上的方便和高效,提供了一個統(tǒng)一的格式。,(30),(40),(70),(90),(40,70),算法示例,3)轉換。為了使這個過程盡量的快,用另一種形式來替換每一個客戶序列。在轉換完成的客戶序列中,每條交易被其所包含的所有頻繁項集所取代。如果一條交

12、易不包含任何頻繁集,在轉換完成的序列中它將不被保留。如果一個客戶序列不包含任何的頻繁項集,在轉換好的數據庫中這個序列也將不復存在。一個客戶序列被一列由頻繁集組成的集合所取代,每個頻繁集的集合表示為{l1,l2,…,ln},l i表示一個頻繁集。,頻繁項集,映射成,{(30)}{(90)},{1},{5},{(30)}{(40)(70)(40,70)},{1},{2,3,4},{(30)(70)},{1,3},{(30)}{(40)(

13、70)(40,70)}{(90)},{1}{2,3,4}{5},{(90)},{5},,,算法示例,算法示例,例:考察右圖所示的一個客戶序列組成的數據庫,假定客戶序列已經以轉換的形式出現(xiàn)了,每一條交易都被包含其中的頻繁項集取代,頻繁項集則由整數代替。最小支持數據定義為2。,,算法示例,,,下次遍歷不好會產生候選,最大序列是以下三個:,和。,附:一、典型的工具有: SAS Enterprise Miner:

14、提供的數據挖掘包括回歸、分類和統(tǒng)計分析包。它的特色是具有多種統(tǒng)計分析工具。 SGI的MineSet:提供的挖掘算法有關聯(lián)和分類以及高級統(tǒng)計和可視化工具。特色是具有強大的圖形工具,包括規(guī)則可視化工具、樹可視化工具、地圖可視化工具和多維數據分散可視化工具,它們用于實現(xiàn)數據和數據挖掘結果的可視化。 ISL的Clementine:為終端用戶和開發(fā)者提供了一個集成的數據挖掘開發(fā)環(huán)境。系統(tǒng)集成了多種數據挖掘算法,如規(guī)則歸納、神經網絡、分

15、類和可視化工具。Clementine現(xiàn)已被SPSS公司收購。,附:一、典型的工具,IBM Intelligent Miner:提供了很多數據挖掘算法,包括關聯(lián)、分類、回歸、預測模型、偏離檢測、序列模式分析和聚類。DBMiner:提供多種數據挖掘方法,包括發(fā)現(xiàn)驅動的OLAP分析、關聯(lián)、分類和聚集。特色是它的基于數據立方體的聯(lián)機分析挖掘,它包含多種有效的頻繁模式挖掘功能和集成的可視化分類方法。MS OLE DB:引入數據挖掘模型(Dat

16、a Mining Model ,DMM),并定義了類似SQL的DMM操作語句,微軟的目標成為一個工業(yè)標準。提供的決策算法有決策樹方法,聚類,可以接受第三方的挖掘算法。,二、Internet資源,1、Knowledge Discovery Nuggets 半月刊,如要免費訂閱,只需向http://www.kdnuggets.com/subscribe.html 發(fā)送一份郵件還可以下載各種各樣的數據挖掘工具和典型的樣本數據。2、其它

17、網址http://info.gte.com/~kddhttp://www.cs.bham.ac.uk/~anp/TheDataMine.htmlhttp://www.gmd.de/ml-archivehttp://www.ics.uci.edu/AI/ML/Machine-Learning.htmlhttp://www.cosmic.uga.edu/maincat.thml#45http://www.neuroney.ph.

18、kcl.ac.ulhttp://www.ipd.ira.uka.de/~prechelt/FAQ/neural-net-faq.html,結束語,數據挖掘涉及的是多學科的領域,涉及數據庫技術、人工智能、機器學習、神經網絡、統(tǒng)計學、模式識別、知識庫系統(tǒng)、知識獲取、信息檢索、高性能計算和數據可視化。本身在不斷發(fā)展。有目前有許多富有挑戰(zhàn)的領域如文本數據挖掘、Web信息挖掘、多媒體信息挖掘、空間數據挖掘等。本課程是一個入門,希望對以后的進一步

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論