數(shù)據(jù)挖掘中分類分析的策略研究及其生物醫(yī)學(xué)應(yīng)用.pdf

上傳人：奔*** IP屬地：河北更新時間：2024-03-13 格式：pdf 頁數(shù)：191 大?。?.28MB 人氣指數(shù)：12 舉報 版權(quán)申訴

數(shù)據(jù)挖掘中分類分析的策略研究及其生物醫(yī)學(xué)應(yīng)用.pdf_第1頁

已閱讀1頁，還剩190頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領(lǐng)

文檔簡介

1、背景：數(shù)據(jù)挖掘是綜合利用了統(tǒng)計學(xué)、數(shù)據(jù)庫和人工智能技術(shù)，從海量數(shù)據(jù)中提取知識和信息的一門技術(shù)。據(jù)報導(dǎo)，在我國生物醫(yī)學(xué)中僅有不足10％的數(shù)據(jù)用來分析。與此同時，在生物醫(yī)學(xué)數(shù)據(jù)資源中數(shù)據(jù)挖掘方法學(xué)研究是相對匱乏和滯后的。當(dāng)前，數(shù)據(jù)挖掘已成為一個具有迫切現(xiàn)實需要且很有前途的熱點研究領(lǐng)域。隨著生物醫(yī)學(xué)數(shù)據(jù)量的急劇增漲及其數(shù)據(jù)的特殊性，需要加大數(shù)據(jù)挖掘的方法學(xué)研究。在生物醫(yī)學(xué)領(lǐng)域，分類方法應(yīng)用非常廣泛，可應(yīng)用于影像學(xué)的圖像分類處理；病理

2、、檢驗、腫瘤等學(xué)科進行輔助診斷和識別；基因芯片、蛋白質(zhì)芯片等微陣列數(shù)據(jù)分子生物學(xué)技術(shù)診斷；中醫(yī)癥侯特征分類；人壽保險；預(yù)測和自動控制等方面。因此，如何利用分類分析從大量數(shù)據(jù)中智能地、自動地提取出有價值的知識和信息的研究，具有十分重要的現(xiàn)實意義和廣泛的應(yīng)用前景。目的：應(yīng)用MonteCarlo方法比較數(shù)據(jù)挖掘中分類分析的八種方法，探討不同分類方法的特點及在特定數(shù)據(jù)條件下的優(yōu)勢與不足，據(jù)此提出數(shù)據(jù)挖掘中分類分析的策略，為數(shù)據(jù)挖掘的實

3、際應(yīng)用提供依據(jù)。方法：選擇八種分類方法，即判別分析中的線性判別(LinnerDiscriminantAnalysis，LDA)、二次判別(QuadraticDiscriminantAnalysis，QDA)、K-最近鄰法(K-NearestNeighbors，KNN)；logistic回歸；決策樹中的CHAID(Chi-squareAutomaticInteractionDetector，CHAID)、C4.5、CART(Cl

4、assificationandRegressionTrees，CART)及BP神經(jīng)網(wǎng)絡(luò)(BackPropagationNeuralNet-Work，BPNN)。采用MonteCarlo模擬研究對前述八種方法進行比較。所有模擬數(shù)據(jù)的目標變量設(shè)置為二分類，預(yù)測變量數(shù)目設(shè)置為3?？紤]7個可能影響分類結(jié)果的因素，依次為： ①預(yù)測變量的分布類型；②樣本量大小；③組間協(xié)方差的比率；④組間樣本量的比例；⑤兩組間的效應(yīng)量大小；⑥變量間的多重共線

5、性；⑦先驗概率。預(yù)測變量的分布類型考慮4種情況，即①多元正態(tài)分布；⑦多元偏態(tài)分布(本研究設(shè)置總體偏度系數(shù)γ1=2.0、峰度系數(shù)為γ2=7.0)；③混合型分布，即X1為正態(tài)分布變量，X2為偏態(tài)分布(總體偏度系數(shù)γ1=2.0、峰度系數(shù)γ2=7.0)，X3為二分類計數(shù)屬性變量；④所有預(yù)測變量均為二分類計數(shù)屬性變量。本研究中兩組樣本量之和分別設(shè)置為60、100和400。組間樣本量比例設(shè)置為50:50、25:75與10:90。組間協(xié)方差比率設(shè)置為

6、1:1、1:4及1:8。組間效應(yīng)量大小設(shè)置為0.2、0.5及0.8。在模擬中對三個預(yù)測變量總體間的相關(guān)系數(shù)p設(shè)置為0.3。對于多重共線性的探討，設(shè)置X1與X2總體間的相關(guān)系數(shù)p別為0.6、0.9，與X3的相關(guān)關(guān)系不變。初步模擬時先驗概率均設(shè)置為先驗概率與樣本量比例相等，而后設(shè)置組間先驗概率相等(0.5:0.5)以及先驗概率為0.25:0.75作為對比。方法間性能評估所用指標為總的錯判率、靈敏度、特異度及ROC曲線下面積。對各種條件下數(shù)據(jù)

7、模式進行2次隨機抽樣，一個樣本作為訓(xùn)練集構(gòu)造模型，另一個作為測試集驗證模型。而后重復(fù)上述操作1000次，計算測試集數(shù)據(jù)錯判率、ROC曲線下的面積、靈敏度及特異度的均值用以評價模型性能。結(jié)果： 1.不同數(shù)據(jù)分布類型 ①多元正態(tài)分布，組間協(xié)方差相等時，LDA最優(yōu)，其次為logistic回歸，決策樹法較差。相對而言，參數(shù)方法較之非參數(shù)方法要優(yōu)。當(dāng)數(shù)據(jù)為正態(tài)分布，組間協(xié)方差不等時，QDA最優(yōu)，次之為非參數(shù)法，LDA與l

8、ogistic回歸較差。 ②多元偏態(tài)分布，組間協(xié)方差相等時，決策樹及BP神經(jīng)網(wǎng)絡(luò)較優(yōu)，LDA、QDA、logistic較差。偏態(tài)分布，組間協(xié)方差不等條件下，決策樹法、KNN及QDA較優(yōu)，LDA與logistic回歸較差。 ③混合分布，組間協(xié)方差相等時，決策樹及l(fā)ogistic回歸較優(yōu)，三種判別分析較差。組間協(xié)方差不等條件下，決策樹法較優(yōu)，LDA與logistic回歸較差。 ④當(dāng)數(shù)據(jù)為分類分布時，決策樹與logis

9、tic回歸較優(yōu)，三種判別分析及BP神經(jīng)網(wǎng)絡(luò)較差。 2.協(xié)方差對分類的影響組間協(xié)方差不等，對于參數(shù)方法影響較大，尤其是QOA及l(fā)ogistic分析。較大協(xié)方差組錯判率大，較小協(xié)方差組錯判率小，而且協(xié)方差比例越不均衡，這一趨勢愈為明顯。以正態(tài)分布為例，當(dāng)協(xié)方差為1:4時，兩組錯判率比值為1.14～2.30；在協(xié)方差為1:8時，兩組錯判率比值為1.10～3.80，KNN、BPNeural表現(xiàn)更為明顯。 3.樣本量及樣本量比例對

10、分類的影響當(dāng)諸如數(shù)據(jù)分布類型、效應(yīng)量、協(xié)方差不變時，隨著樣本量的增大，錯判率減少，同時ROC曲線下面積增大。以正態(tài)分布協(xié)方差相等條件為例，樣本量增大，錯判率減小2％～11％，最為敏感的方法為BP神經(jīng)網(wǎng)絡(luò)，最不敏感的方法為KNN。樣本量對分類效果的影響不如協(xié)方差影響大。樣本量比例的不均衡對錯判率的影響較大，以先驗概率相等，正態(tài)分布、協(xié)方差相等條件下模擬結(jié)果為例，樣本量大組(larger)錯判率低，樣本量小組(sinailer)錯

11、判率大。如樣本量比例10:90條件，larger組下降了10％～98％，smaller組增大了17％～83％。下降的幅度高于增大的幅度，即使總的錯判率減小，是以犧牲靈敏度為代價。 4.效應(yīng)量對分類的影響當(dāng)數(shù)據(jù)分布類型、組間協(xié)方差，樣本量一定的條件下，效應(yīng)量越大，錯判率減少，同時ROC曲線下面積增大。以正態(tài)分布，等協(xié)方差，等樣本量條件的模擬結(jié)果為例，各方法都有不同程度的改變，當(dāng)效應(yīng)量由0.2增大為0.8時，錯判率減小了30％～55

12、％。LDA及l(fā)ogistic回歸尤為明顯。效應(yīng)量對錯判率的影響較大。 5.共線性的影響隨著共線性程度的增強，錯判率增大，ROC曲線下面積減小。相關(guān)系數(shù)由0.6增至為0.9時，錯判率增加幅度并不大。以正態(tài)分布、等樣本量比例及協(xié)方差比率為1:4條件為例，當(dāng)相關(guān)系數(shù)由0.3增至0.9時，錯判率增大了1.36％～9.44％。出現(xiàn)這樣的結(jié)果，估計在條件設(shè)置時僅設(shè)置了X2、X3有較強相關(guān)性有關(guān)。 6.先驗概率的影響先驗概率對錯判率的

13、影響很大，以正態(tài)分布為例，當(dāng)樣本量比例相等，先驗概率為1:3，較大概率組錯判率顯著減小，降低為先驗概率1:1條件的1.48～8.57倍。而較小概率組錯判率增大，與先驗概率1:1條件相比，增大為1.35～2.94倍。當(dāng)先驗概率設(shè)置為與樣本量比例相等時，較之先驗概率不等但樣本量比例相等條件，又加劇了前述趨勢。此條件下，較大概率組錯判率降低為2.15～8.90倍，較小概率組錯判率增大為1.59～2.95倍。顯著降低了靈敏度。 7.實證

14、分析依模擬結(jié)果為理論指導(dǎo)，我們將分類方法應(yīng)用于三個實際醫(yī)學(xué)資料。其一，對心肌梗塞數(shù)據(jù)建立了二次判別分類模型。其二，聯(lián)合應(yīng)用logistic回歸與BP神經(jīng)網(wǎng)絡(luò)對脂肪肝數(shù)據(jù)構(gòu)建了分類模型。最后，又將CART法應(yīng)用于糖尿病數(shù)據(jù)探索其影響因素并建立了分類模型。結(jié)果表明，各模型與數(shù)據(jù)吻合較好，可應(yīng)用于醫(yī)學(xué)實際。結(jié)論：在所研究的八種分類方法中，每種方法或多種方法的組合均在特定數(shù)據(jù)條件下體現(xiàn)出各自優(yōu)勢，因此可依據(jù)本研究的結(jié)果制定分析策略。首

15、先，對數(shù)據(jù)進行預(yù)處理，即數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約。第二，進行分類分析時關(guān)注數(shù)據(jù)的分布類型及其協(xié)方差的情況，而后進行方法的選擇。當(dāng)數(shù)據(jù)為多元正態(tài)分布，組間協(xié)方差相等時，可選擇LDA及l(fā)ogistic回歸。組間協(xié)方差不等時，可選擇QDA。偏態(tài)分布，組間協(xié)方差相等時，可選擇決策樹及BP神經(jīng)網(wǎng)絡(luò)。組間協(xié)方差不等時，可選擇決策樹法、KNN和QDA。當(dāng)數(shù)據(jù)為混合分布，組間協(xié)方差相等時，決策樹及l(fā)ogistic較優(yōu)，組間協(xié)方差不等時，決

眾賞文庫> 全部分類> 畢業(yè)設(shè)計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

數(shù)據(jù)挖掘中分類分析的策略研究及其生物醫(yī)學(xué)應(yīng)用.pdf

文檔簡介

溫馨提示

最新文檔

評論

數(shù)據(jù)挖掘中分類分析的策略研究及其生物醫(yī)學(xué)應(yīng)用.pdf

文檔簡介

溫馨提示

最新文檔

評論

免費下載