

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、近十幾年來,隨著科學技術的不斷發(fā)展,人們產生和收集數據的能力迅速提高,因而數據規(guī)模急劇增加,僅僅依靠現有的技術是很難分析這些海量數據的,于是出現了“數據爆炸但知識貧乏”的現象。人們希望能夠有新的工具自動的分析和整理如此龐雜的數據,從中發(fā)現有價值的東西,為決策提供必要的支持。面對這一挑戰(zhàn),數據挖掘技術應運而生了。數據挖掘技術是指從大量的、不完全的、有噪聲的、模糊的、隨機的數據中抽取出潛在的、有效的、新穎的、有用的和最終可以理解和運用的知識
2、的過程,它是涉及數據庫、人工智能、統(tǒng)計學等眾多學科的一個非?;钴S的研究領域。數據挖掘不僅吸引了眾多學者為其投入極大的熱情,同時也引起了產業(yè)界人士的廣泛關注。關聯規(guī)則不僅僅是數據挖掘領域的一個重要研究課題,而且對數據挖掘技術的發(fā)展和應用都起到了舉足輕重的作用,因而吸引了許多學者對關聯規(guī)則挖掘的技術和方法進行深入的研究,例如對Apriori類算法的研究。這些研究基本集中于算法的可擴展性和提高算法的效率。一般說來,在數據庫中當且僅當項集的支持
3、度不小于用戶給定的最小支持度閾值時稱該項集為頻繁項集。最小支持度的設置可能會導致兩個問題(1)最小支持度的設定對于用戶來說是一個艱巨的任務,最小支持度的設定是否合理直接影響到最后的挖掘結果;(2)頻繁項集的挖掘可能會導致產生大量的模式(最后導致產生大量的規(guī)則)。鑒于支持度-置信度模型的局限性,許多數據挖掘工作者提出了各種方案試圖沖破該模型的限制,其中主要包括:挖掘前k個頻繁閉模式[18];將支持度的限制從挖掘時推遲到評價時[21];由置
4、信度驅動的挖掘模型[22];以及不需要最小支持度的挖掘策略[23],這幾種方法都試圖在某種程度上避免設置最小支持度,這些模型為挖掘關聯規(guī)則提供了新的視角。針對支持度-置信度模型需要用戶設定最小支持度的問題,本論文提出了一種基于模糊控制的不依賴于具體數據庫的挖掘策略FARDIMS,即用戶無須對具體的數據庫有非常深入的了解,只要根據意愿輸入挖掘水平參數,系統(tǒng)就可以根據各數據庫中項集分布的具體情況將其自動轉化為適合于該數據庫的支持度閾值,從而
5、提高了挖掘系統(tǒng)的自動化與智能化。同時,在頻繁項集的應用中還存在一個基本的問題,挖掘系統(tǒng)產生的頻繁項集對于“頻繁”的可信程度究竟是多少——在做出決策時必須要重視的問題。對于在數據庫中發(fā)現的所有頻繁項集,即使它們具有不同的支持度,似乎在做出決策時都同樣重要,這是否會導致決策的失誤呢?一般說來,在實際應用中,一個支持度較高的項集應該比支持度較低的項集具<;WP=6>;有更高的對于“頻繁”的可信度,但是,當數據庫中數據分布情況未知時,我
6、們并沒有任何參數來度量一個頻繁項集在多大程度上比另一個頻繁項集具有更高的頻繁可信度,這是因為支持度并不能反映項集對于頻繁的可信程度,因而產生了分析項集對于頻繁可信度的要求。在本論文中,我們提出了項集頻繁可信度的概念,并且給出了兩種估計項集頻繁可信度的方法,使得項集分布挖掘模型具有更好的可擴展性。綜上所述,本文所做的主要工作是:提出了一種基于模糊控制的不依賴于具體數據庫的挖掘策略FARDIMS。闡述了數據庫中項集分布情況對產生頻繁項集的影
7、響。給出了一種通過分析數據庫中項集的分布情況獲得項集頻繁可信度的方法。提出了兩種估計項集頻繁可信度的方法SBMEIS和EAKTINA,從而項集分布挖掘模型具有更好的可擴展性。為了對提出的方法進行評價,我們作了大量的實驗。實驗結果表明,FARDIMS與傳統(tǒng)的挖掘算法相比具有更好的自動性和智能性;SBMEIS和EAKTINA 能夠較好的估計項集的分布情況,從而可以較準確的獲得項集對于頻繁的可信度,使用戶對數據庫有更加深入的了解,為做出決策提
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 完全頻繁項集挖掘算法及其在分類中應用研究.pdf
- 序列挖掘及其在證券分析中的應用.pdf
- 軟集在關聯規(guī)則挖掘中的應用.pdf
- 聚類分析及其在文本挖掘中的應用.pdf
- 圖模式挖掘在Web鏈接結構分析中的應用.pdf
- 基于Rough集的序列粒及其在序列挖掘中應用的研究.pdf
- 序列模式挖掘高效算法及其在股票時序中的應用.pdf
- 基于Spark的分布式頻繁項集挖掘算法研究.pdf
- 頻繁項集技術在OLAP中應用的研究.pdf
- 序列模式挖掘及其在入侵檢測中的應用研究.pdf
- 頻繁項集快速挖掘算法研究及應用.pdf
- 灰色挖掘及其在證券分析中的應用研究.pdf
- 分布式環(huán)境下的閉頻繁項集挖掘算法研究.pdf
- 并行化頻繁項集挖掘及其在數據流中的研究.pdf
- 數據挖掘中關聯規(guī)則的頻繁項集研究.pdf
- 中介粗集及其在數據挖掘中的應用.pdf
- 數據流中頻繁項集挖掘算法及其應用研究.pdf
- 基于待與項集的頻繁項集挖掘算法的研究.pdf
- 頻繁項集快速挖掘算法研究及應用
- 關聯規(guī)則的挖掘及其在商業(yè)決策中的應用分析.pdf
評論
0/150
提交評論