基于倒排索引的增量更新關聯(lián)挖掘算法的研究.pdf_第1頁
已閱讀1頁,還剩64頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、關聯(lián)挖掘是用來發(fā)現(xiàn)海量數(shù)據(jù)集中數(shù)據(jù)項之間存在潛在的、有價值的關聯(lián)關系,以便于商業(yè)決策提高企業(yè)利潤。隨著移動互聯(lián)網、人工智能、信息處理、機器學習、物聯(lián)網等各種計算機科學技術的急速發(fā)展和普遍應用,各種海量信息數(shù)據(jù)呈指數(shù)迅速增長,人們?yōu)榱四軌驈暮A繑?shù)據(jù)集中提取有價值的信息,提出了各種數(shù)據(jù)挖掘技術。增量更新關聯(lián)挖掘是一種動態(tài)的關聯(lián)挖掘方法,它主要用來解決動態(tài)事務數(shù)據(jù)庫中事務記錄隨時間的推移而不斷地更新,以及根據(jù)用戶需求的不同,最小支持度閾值、最

2、小置信度閾值發(fā)生改變時,發(fā)現(xiàn)數(shù)據(jù)項之間存在潛在、有價值的關聯(lián)關系問題。針對現(xiàn)有的改進增量更新關聯(lián)規(guī)則挖掘算法存在以下缺陷:①多次頻繁地掃描原始事務數(shù)據(jù)庫、產生大量無用的候選項集以及使用集合連接操作來計算頻繁項集;②新產生的關聯(lián)規(guī)則不能滿足用戶的不同需求;③當原始事務數(shù)據(jù)庫新增事務記錄的同時,改變最小支持度閾值和最小置信度閾值的情況下,實現(xiàn)增量更新關聯(lián)挖掘維護問題的研究很少。為解決此類問題,本文采用倒排索引技術與樹型結構相結合的方式,提出

3、一種高效的增量更新關聯(lián)挖掘算法UP-IITree。該算法有效的實現(xiàn)了無需掃描原始事務數(shù)據(jù)庫DB,不產生候選項集且使用集合與操作,能夠高效地計算出增量更新后的所有頻繁項集。實驗結果表明,該算法占用內存空間少、檢索頻繁項集效率高,且能更好地解決了增量更新關聯(lián)挖掘算法存在上述難題。
  在大數(shù)據(jù)環(huán)境下,原始事務數(shù)據(jù)庫中新增的事務數(shù)據(jù)集都是大批量的,且根據(jù)用戶的需求不同,所指定的最小支持度閾值和最小置信度閾值也會有所改變,為了能夠實現(xiàn)更新

4、后的關聯(lián)規(guī)則得到及時的維護一直是人們追求的目標。本文將UP-IITree算法實行進一步創(chuàng)新,將倒排索引技術與MapReduce并行編程模型相結合提出一種并行增量更新關聯(lián)挖掘算法UP-IIMR。該算法是利用hadoop平臺中MapReduce并行編程模型,使得能夠以并行的方式應用倒排索引技術,以便于在新增大批量數(shù)據(jù)集的同時,改變最小支持度閾值和最小置信度閾值的情況下,高效、及時地解決了關聯(lián)規(guī)則難以維護的問題。通過使用真實數(shù)據(jù)進行實驗,結果

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論