版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、近十幾年來(lái),隨著科學(xué)技術(shù)的不斷發(fā)展,人們產(chǎn)生和收集數(shù)據(jù)的能力迅速提高,因而數(shù)據(jù)規(guī)模急劇增加,僅僅依靠現(xiàn)有的技術(shù)是很難分析這些海量數(shù)據(jù)的,于是出現(xiàn)了“數(shù)據(jù)爆炸但知識(shí)貧乏”的現(xiàn)象。人們希望能夠有新的工具自動(dòng)的分析和整理如此龐雜的數(shù)據(jù),從中發(fā)現(xiàn)有價(jià)值的東西,為決策提供必要的支持。面對(duì)這一挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生了。數(shù)據(jù)挖掘技術(shù)是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中抽取出潛在的、有效的、新穎的、有用的和最終可以理解和運(yùn)用的知識(shí)
2、的過(guò)程,它是涉及數(shù)據(jù)庫(kù)、人工智能、統(tǒng)計(jì)學(xué)等眾多學(xué)科的一個(gè)非?;钴S的研究領(lǐng)域。數(shù)據(jù)挖掘不僅吸引了眾多學(xué)者為其投入極大的熱情,同時(shí)也引起了產(chǎn)業(yè)界人士的廣泛關(guān)注。關(guān)聯(lián)規(guī)則不僅僅是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要研究課題,而且對(duì)數(shù)據(jù)挖掘技術(shù)的發(fā)展和應(yīng)用都起到了舉足輕重的作用,因而吸引了許多學(xué)者對(duì)關(guān)聯(lián)規(guī)則挖掘的技術(shù)和方法進(jìn)行深入的研究,例如對(duì)Apriori類(lèi)算法的研究。這些研究基本集中于算法的可擴(kuò)展性和提高算法的效率。一般說(shuō)來(lái),在數(shù)據(jù)庫(kù)中當(dāng)且僅當(dāng)項(xiàng)集的支持
3、度不小于用戶給定的最小支持度閾值時(shí)稱(chēng)該項(xiàng)集為頻繁項(xiàng)集。最小支持度的設(shè)置可能會(huì)導(dǎo)致兩個(gè)問(wèn)題(1)最小支持度的設(shè)定對(duì)于用戶來(lái)說(shuō)是一個(gè)艱巨的任務(wù),最小支持度的設(shè)定是否合理直接影響到最后的挖掘結(jié)果;(2)頻繁項(xiàng)集的挖掘可能會(huì)導(dǎo)致產(chǎn)生大量的模式(最后導(dǎo)致產(chǎn)生大量的規(guī)則)。鑒于支持度-置信度模型的局限性,許多數(shù)據(jù)挖掘工作者提出了各種方案試圖沖破該模型的限制,其中主要包括:挖掘前k個(gè)頻繁閉模式[18];將支持度的限制從挖掘時(shí)推遲到評(píng)價(jià)時(shí)[21];由置
4、信度驅(qū)動(dòng)的挖掘模型[22];以及不需要最小支持度的挖掘策略[23],這幾種方法都試圖在某種程度上避免設(shè)置最小支持度,這些模型為挖掘關(guān)聯(lián)規(guī)則提供了新的視角。針對(duì)支持度-置信度模型需要用戶設(shè)定最小支持度的問(wèn)題,本論文提出了一種基于模糊控制的不依賴(lài)于具體數(shù)據(jù)庫(kù)的挖掘策略FARDIMS,即用戶無(wú)須對(duì)具體的數(shù)據(jù)庫(kù)有非常深入的了解,只要根據(jù)意愿輸入挖掘水平參數(shù),系統(tǒng)就可以根據(jù)各數(shù)據(jù)庫(kù)中項(xiàng)集分布的具體情況將其自動(dòng)轉(zhuǎn)化為適合于該數(shù)據(jù)庫(kù)的支持度閾值,從而
5、提高了挖掘系統(tǒng)的自動(dòng)化與智能化。同時(shí),在頻繁項(xiàng)集的應(yīng)用中還存在一個(gè)基本的問(wèn)題,挖掘系統(tǒng)產(chǎn)生的頻繁項(xiàng)集對(duì)于“頻繁”的可信程度究竟是多少——在做出決策時(shí)必須要重視的問(wèn)題。對(duì)于在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)的所有頻繁項(xiàng)集,即使它們具有不同的支持度,似乎在做出決策時(shí)都同樣重要,這是否會(huì)導(dǎo)致決策的失誤呢?一般說(shuō)來(lái),在實(shí)際應(yīng)用中,一個(gè)支持度較高的項(xiàng)集應(yīng)該比支持度較低的項(xiàng)集具<;WP=6>;有更高的對(duì)于“頻繁”的可信度,但是,當(dāng)數(shù)據(jù)庫(kù)中數(shù)據(jù)分布情況未知時(shí),我
6、們并沒(méi)有任何參數(shù)來(lái)度量一個(gè)頻繁項(xiàng)集在多大程度上比另一個(gè)頻繁項(xiàng)集具有更高的頻繁可信度,這是因?yàn)橹С侄炔⒉荒芊从稠?xiàng)集對(duì)于頻繁的可信程度,因而產(chǎn)生了分析項(xiàng)集對(duì)于頻繁可信度的要求。在本論文中,我們提出了項(xiàng)集頻繁可信度的概念,并且給出了兩種估計(jì)項(xiàng)集頻繁可信度的方法,使得項(xiàng)集分布挖掘模型具有更好的可擴(kuò)展性。綜上所述,本文所做的主要工作是:提出了一種基于模糊控制的不依賴(lài)于具體數(shù)據(jù)庫(kù)的挖掘策略FARDIMS。闡述了數(shù)據(jù)庫(kù)中項(xiàng)集分布情況對(duì)產(chǎn)生頻繁項(xiàng)集的影
7、響。給出了一種通過(guò)分析數(shù)據(jù)庫(kù)中項(xiàng)集的分布情況獲得項(xiàng)集頻繁可信度的方法。提出了兩種估計(jì)項(xiàng)集頻繁可信度的方法SBMEIS和EAKTINA,從而項(xiàng)集分布挖掘模型具有更好的可擴(kuò)展性。為了對(duì)提出的方法進(jìn)行評(píng)價(jià),我們作了大量的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,FARDIMS與傳統(tǒng)的挖掘算法相比具有更好的自動(dòng)性和智能性;SBMEIS和EAKTINA 能夠較好的估計(jì)項(xiàng)集的分布情況,從而可以較準(zhǔn)確的獲得項(xiàng)集對(duì)于頻繁的可信度,使用戶對(duì)數(shù)據(jù)庫(kù)有更加深入的了解,為做出決策提
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 完全頻繁項(xiàng)集挖掘算法及其在分類(lèi)中應(yīng)用研究.pdf
- 序列挖掘及其在證券分析中的應(yīng)用.pdf
- 軟集在關(guān)聯(lián)規(guī)則挖掘中的應(yīng)用.pdf
- 聚類(lèi)分析及其在文本挖掘中的應(yīng)用.pdf
- 圖模式挖掘在Web鏈接結(jié)構(gòu)分析中的應(yīng)用.pdf
- 基于Rough集的序列粒及其在序列挖掘中應(yīng)用的研究.pdf
- 序列模式挖掘高效算法及其在股票時(shí)序中的應(yīng)用.pdf
- 基于Spark的分布式頻繁項(xiàng)集挖掘算法研究.pdf
- 頻繁項(xiàng)集技術(shù)在OLAP中應(yīng)用的研究.pdf
- 序列模式挖掘及其在入侵檢測(cè)中的應(yīng)用研究.pdf
- 頻繁項(xiàng)集快速挖掘算法研究及應(yīng)用.pdf
- 灰色挖掘及其在證券分析中的應(yīng)用研究.pdf
- 分布式環(huán)境下的閉頻繁項(xiàng)集挖掘算法研究.pdf
- 并行化頻繁項(xiàng)集挖掘及其在數(shù)據(jù)流中的研究.pdf
- 數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集研究.pdf
- 中介粗集及其在數(shù)據(jù)挖掘中的應(yīng)用.pdf
- 數(shù)據(jù)流中頻繁項(xiàng)集挖掘算法及其應(yīng)用研究.pdf
- 基于待與項(xiàng)集的頻繁項(xiàng)集挖掘算法的研究.pdf
- 頻繁項(xiàng)集快速挖掘算法研究及應(yīng)用
- 關(guān)聯(lián)規(guī)則的挖掘及其在商業(yè)決策中的應(yīng)用分析.pdf
評(píng)論
0/150
提交評(píng)論