數(shù)據(jù)挖掘中分類分析的策略研究及其生物醫(yī)學(xué)應(yīng)用.pdf_第1頁
已閱讀1頁,還剩190頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、背景:數(shù)據(jù)挖掘是綜合利用了統(tǒng)計學(xué)、數(shù)據(jù)庫和人工智能技術(shù),從海量數(shù)據(jù)中提取知識和信息的一門技術(shù)。據(jù)報導(dǎo),在我國生物醫(yī)學(xué)中僅有不足10%的數(shù)據(jù)用來分析。與此同時,在生物醫(yī)學(xué)數(shù)據(jù)資源中數(shù)據(jù)挖掘方法學(xué)研究是相對匱乏和滯后的。當(dāng)前,數(shù)據(jù)挖掘已成為一個具有迫切現(xiàn)實需要且很有前途的熱點研究領(lǐng)域。隨著生物醫(yī)學(xué)數(shù)據(jù)量的急劇增漲及其數(shù)據(jù)的特殊性,需要加大數(shù)據(jù)挖掘的方法學(xué)研究。 在生物醫(yī)學(xué)領(lǐng)域,分類方法應(yīng)用非常廣泛,可應(yīng)用于影像學(xué)的圖像分類處理;病理

2、、檢驗、腫瘤等學(xué)科進行輔助診斷和識別;基因芯片、蛋白質(zhì)芯片等微陣列數(shù)據(jù)分子生物學(xué)技術(shù)診斷;中醫(yī)癥侯特征分類;人壽保險;預(yù)測和自動控制等方面。因此,如何利用分類分析從大量數(shù)據(jù)中智能地、自動地提取出有價值的知識和信息的研究,具有十分重要的現(xiàn)實意義和廣泛的應(yīng)用前景。 目的:應(yīng)用MonteCarlo方法比較數(shù)據(jù)挖掘中分類分析的八種方法,探討不同分類方法的特點及在特定數(shù)據(jù)條件下的優(yōu)勢與不足,據(jù)此提出數(shù)據(jù)挖掘中分類分析的策略,為數(shù)據(jù)挖掘的實

3、際應(yīng)用提供依據(jù)。 方法:選擇八種分類方法,即判別分析中的線性判別(LinnerDiscriminantAnalysis,LDA)、二次判別(QuadraticDiscriminantAnalysis,QDA)、K-最近鄰法(K-NearestNeighbors,KNN);logistic回歸;決策樹中的CHAID(Chi-squareAutomaticInteractionDetector,CHAID)、C4.5、CART(Cl

4、assificationandRegressionTrees,CART)及BP神經(jīng)網(wǎng)絡(luò)(BackPropagationNeuralNet-Work,BPNN)。采用MonteCarlo模擬研究對前述八種方法進行比較。所有模擬數(shù)據(jù)的目標變量設(shè)置為二分類,預(yù)測變量數(shù)目設(shè)置為3??紤]7個可能影響分類結(jié)果的因素,依次為: ①預(yù)測變量的分布類型;②樣本量大小;③組間協(xié)方差的比率;④組間樣本量的比例;⑤兩組間的效應(yīng)量大小;⑥變量間的多重共線

5、性;⑦先驗概率。預(yù)測變量的分布類型考慮4種情況,即①多元正態(tài)分布;⑦多元偏態(tài)分布(本研究設(shè)置總體偏度系數(shù)γ1=2.0、峰度系數(shù)為γ2=7.0);③混合型分布,即X1為正態(tài)分布變量,X2為偏態(tài)分布(總體偏度系數(shù)γ1=2.0、峰度系數(shù)γ2=7.0),X3為二分類計數(shù)屬性變量;④所有預(yù)測變量均為二分類計數(shù)屬性變量。本研究中兩組樣本量之和分別設(shè)置為60、100和400。組間樣本量比例設(shè)置為50:50、25:75與10:90。組間協(xié)方差比率設(shè)置為

6、1:1、1:4及1:8。組間效應(yīng)量大小設(shè)置為0.2、0.5及0.8。在模擬中對三個預(yù)測變量總體間的相關(guān)系數(shù)p設(shè)置為0.3。對于多重共線性的探討,設(shè)置X1與X2總體間的相關(guān)系數(shù)p別為0.6、0.9,與X3的相關(guān)關(guān)系不變。初步模擬時先驗概率均設(shè)置為先驗概率與樣本量比例相等,而后設(shè)置組間先驗概率相等(0.5:0.5)以及先驗概率為0.25:0.75作為對比。方法間性能評估所用指標為總的錯判率、靈敏度、特異度及ROC曲線下面積。對各種條件下數(shù)據(jù)

7、模式進行2次隨機抽樣,一個樣本作為訓(xùn)練集構(gòu)造模型,另一個作為測試集驗證模型。而后重復(fù)上述操作1000次,計算測試集數(shù)據(jù)錯判率、ROC曲線下的面積、靈敏度及特異度的均值用以評價模型性能。 結(jié)果: 1.不同數(shù)據(jù)分布類型 ①多元正態(tài)分布,組間協(xié)方差相等時,LDA最優(yōu),其次為logistic回歸,決策樹法較差。相對而言,參數(shù)方法較之非參數(shù)方法要優(yōu)。當(dāng)數(shù)據(jù)為正態(tài)分布,組間協(xié)方差不等時,QDA最優(yōu),次之為非參數(shù)法,LDA與l

8、ogistic回歸較差。 ②多元偏態(tài)分布,組間協(xié)方差相等時,決策樹及BP神經(jīng)網(wǎng)絡(luò)較優(yōu),LDA、QDA、logistic較差。偏態(tài)分布,組間協(xié)方差不等條件下,決策樹法、KNN及QDA較優(yōu),LDA與logistic回歸較差。 ③混合分布,組間協(xié)方差相等時,決策樹及l(fā)ogistic回歸較優(yōu),三種判別分析較差。組間協(xié)方差不等條件下,決策樹法較優(yōu),LDA與logistic回歸較差。 ④當(dāng)數(shù)據(jù)為分類分布時,決策樹與logis

9、tic回歸較優(yōu),三種判別分析及BP神經(jīng)網(wǎng)絡(luò)較差。 2.協(xié)方差對分類的影響組間協(xié)方差不等,對于參數(shù)方法影響較大,尤其是QOA及l(fā)ogistic分析。較大協(xié)方差組錯判率大,較小協(xié)方差組錯判率小,而且協(xié)方差比例越不均衡,這一趨勢愈為明顯。以正態(tài)分布為例,當(dāng)協(xié)方差為1:4時,兩組錯判率比值為1.14~2.30;在協(xié)方差為1:8時,兩組錯判率比值為1.10~3.80,KNN、BPNeural表現(xiàn)更為明顯。 3.樣本量及樣本量比例對

10、分類的影響當(dāng)諸如數(shù)據(jù)分布類型、效應(yīng)量、協(xié)方差不變時,隨著樣本量的增大,錯判率減少,同時ROC曲線下面積增大。以正態(tài)分布協(xié)方差相等條件為例,樣本量增大,錯判率減小2%~11%,最為敏感的方法為BP神經(jīng)網(wǎng)絡(luò),最不敏感的方法為KNN。樣本量對分類效果的影響不如協(xié)方差影響大。 樣本量比例的不均衡對錯判率的影響較大,以先驗概率相等,正態(tài)分布、協(xié)方差相等條件下模擬結(jié)果為例,樣本量大組(larger)錯判率低,樣本量小組(sinailer)錯

11、判率大。如樣本量比例10:90條件,larger組下降了10%~98%,smaller組增大了17%~83%。下降的幅度高于增大的幅度,即使總的錯判率減小,是以犧牲靈敏度為代價。 4.效應(yīng)量對分類的影響當(dāng)數(shù)據(jù)分布類型、組間協(xié)方差,樣本量一定的條件下,效應(yīng)量越大,錯判率減少,同時ROC曲線下面積增大。以正態(tài)分布,等協(xié)方差,等樣本量條件的模擬結(jié)果為例,各方法都有不同程度的改變,當(dāng)效應(yīng)量由0.2增大為0.8時,錯判率減小了30%~55

12、%。LDA及l(fā)ogistic回歸尤為明顯。效應(yīng)量對錯判率的影響較大。 5.共線性的影響隨著共線性程度的增強,錯判率增大,ROC曲線下面積減小。相關(guān)系數(shù)由0.6增至為0.9時,錯判率增加幅度并不大。以正態(tài)分布、等樣本量比例及協(xié)方差比率為1:4條件為例,當(dāng)相關(guān)系數(shù)由0.3增至0.9時,錯判率增大了1.36%~9.44%。出現(xiàn)這樣的結(jié)果,估計在條件設(shè)置時僅設(shè)置了X2、X3有較強相關(guān)性有關(guān)。 6.先驗概率的影響先驗概率對錯判率的

13、影響很大,以正態(tài)分布為例,當(dāng)樣本量比例相等,先驗概率為1:3,較大概率組錯判率顯著減小,降低為先驗概率1:1條件的1.48~8.57倍。而較小概率組錯判率增大,與先驗概率1:1條件相比,增大為1.35~2.94倍。當(dāng)先驗概率設(shè)置為與樣本量比例相等時,較之先驗概率不等但樣本量比例相等條件,又加劇了前述趨勢。此條件下,較大概率組錯判率降低為2.15~8.90倍,較小概率組錯判率增大為1.59~2.95倍。顯著降低了靈敏度。 7.實證

14、分析依模擬結(jié)果為理論指導(dǎo),我們將分類方法應(yīng)用于三個實際醫(yī)學(xué)資料。其一,對心肌梗塞數(shù)據(jù)建立了二次判別分類模型。其二,聯(lián)合應(yīng)用logistic回歸與BP神經(jīng)網(wǎng)絡(luò)對脂肪肝數(shù)據(jù)構(gòu)建了分類模型。最后,又將CART法應(yīng)用于糖尿病數(shù)據(jù)探索其影響因素并建立了分類模型。結(jié)果表明,各模型與數(shù)據(jù)吻合較好,可應(yīng)用于醫(yī)學(xué)實際。 結(jié)論:在所研究的八種分類方法中,每種方法或多種方法的組合均在特定數(shù)據(jù)條件下體現(xiàn)出各自優(yōu)勢,因此可依據(jù)本研究的結(jié)果制定分析策略。首

15、先,對數(shù)據(jù)進行預(yù)處理,即數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約。第二,進行分類分析時關(guān)注數(shù)據(jù)的分布類型及其協(xié)方差的情況,而后進行方法的選擇。當(dāng)數(shù)據(jù)為多元正態(tài)分布,組間協(xié)方差相等時,可選擇LDA及l(fā)ogistic回歸。組間協(xié)方差不等時,可選擇QDA。偏態(tài)分布,組間協(xié)方差相等時,可選擇決策樹及BP神經(jīng)網(wǎng)絡(luò)。組間協(xié)方差不等時,可選擇決策樹法、KNN和QDA。當(dāng)數(shù)據(jù)為混合分布,組間協(xié)方差相等時,決策樹及l(fā)ogistic較優(yōu),組間協(xié)方差不等時,決

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論