復(fù)雜資料綜合投影尋蹤回歸分析法與綜合傳統(tǒng)回歸分析法的比較研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩128頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、復(fù)雜資料綜合投影尋蹤回歸分析法與綜合傳統(tǒng)回歸分析法的比較研究
  高維數(shù)據(jù)統(tǒng)計(jì)分析在現(xiàn)在的醫(yī)學(xué)科學(xué)研究中越來(lái)越普遍,數(shù)據(jù)的高維問(wèn)題使得傳統(tǒng)的多元統(tǒng)計(jì)分析方法遇到了一些問(wèn)題,如高維數(shù)據(jù)計(jì)算量大、出現(xiàn)維數(shù)禍根、低維穩(wěn)健性很好的統(tǒng)計(jì)分析方法在高維時(shí)穩(wěn)健性變差等。傳統(tǒng)的分析方法遠(yuǎn)不能滿足高維數(shù)據(jù)分析的需要,尤其是當(dāng)高維數(shù)據(jù)分布為非正態(tài)時(shí),原有建立在服從正態(tài)分布基礎(chǔ)上的多元統(tǒng)計(jì)分析方法更顯得無(wú)能為力。在此背景下,投影尋蹤在上世紀(jì)60~70年

2、代開(kāi)始出現(xiàn)。
  為了分析或研究高維數(shù)據(jù),投影尋蹤將高維數(shù)據(jù)投影到可反映其原始數(shù)據(jù)結(jié)構(gòu)或特征的低維空間(1~3維)上,用投影指標(biāo)來(lái)度量投影分布所含信息的多少。故投影尋蹤關(guān)鍵在于找到投影指標(biāo)取值最大或最小時(shí)的投影方向,而目前多采用遺傳算法來(lái)尋找最優(yōu)投影方向。將投影尋蹤與回歸分析技術(shù)相結(jié)合就形成了投影尋蹤回歸分析技術(shù)。
  本研究旨在通過(guò)對(duì)同一復(fù)雜資料,分別采用投影尋蹤回歸分析法和傳統(tǒng)回歸分析法進(jìn)行分析,然后比較二者的擬合效果和

3、預(yù)測(cè)效果,以研究出對(duì)此資料更適合采用哪種分析方法。本研究可使投影尋蹤回歸的適用性更為具體,也可引起醫(yī)學(xué)統(tǒng)計(jì)學(xué)數(shù)據(jù)分析者對(duì)投影尋蹤這一方法的認(rèn)識(shí),從而有利于今后進(jìn)行復(fù)雜資料回歸分析時(shí)方法的合理選擇。
  本文中所用的投影尋蹤回歸分析方法主要包括R中所能實(shí)現(xiàn)的投影尋蹤回歸方法(PPR包中包括的三種方法,Spline法、Gcvspline法、Supsmu法)和自行編制的投影尋蹤回歸軟件中使用的方法(Hermite多項(xiàng)式法)。在本文中綜合

4、傳統(tǒng)回歸分析法主要指多重線性回歸分析、主成分回歸、嶺回歸、偏最小二乘回歸和穩(wěn)健回歸。
  本課題研究中關(guān)于“復(fù)雜資料”的界定包括以下2種情形:
  第一種情形:自變量之間存在多重共線性關(guān)系。對(duì)于多重共線性,本文中傳統(tǒng)回歸分析方法采用主成分回歸、嶺回歸和偏最小二乘回歸處理;具體計(jì)算,將通過(guò)SAS中REG、PRINCOMP和PLS過(guò)程來(lái)實(shí)現(xiàn)。
  第二種情形:數(shù)據(jù)中存在異常點(diǎn)。對(duì)于存在異常點(diǎn)情形,本文中傳統(tǒng)回歸分析方法采用

5、穩(wěn)健回歸;具體計(jì)算,將通過(guò)SAS中ROBUSTREG過(guò)程來(lái)實(shí)現(xiàn)。
  本文除考慮進(jìn)行上述復(fù)雜資料情況比較外,也進(jìn)行了對(duì)于數(shù)據(jù)質(zhì)量較好(數(shù)據(jù)本身質(zhì)量較好、不存在多重共線性及異常點(diǎn)等,并且采用多重線性回歸分析擬合及預(yù)測(cè)效果均很好)情況下投影尋蹤回歸分析方法和傳統(tǒng)的多重線性回歸分析方法的比較。
  本文主要采用決定系數(shù)和相對(duì)誤差絕對(duì)值的平均值來(lái)評(píng)價(jià)擬合效果,主要采用各預(yù)測(cè)樣本相對(duì)誤差的絕對(duì)值和預(yù)測(cè)誤差的均方來(lái)評(píng)價(jià)預(yù)測(cè)效果。對(duì)于實(shí)際

6、數(shù)據(jù)擬合樣本采用的是原始的樣本數(shù)據(jù),預(yù)測(cè)樣本采用的是對(duì)應(yīng)于相應(yīng)變量的平均值、最大值、最小值、中位數(shù)、四分之一分位數(shù)、四分之三分位數(shù)所形成的6個(gè)統(tǒng)計(jì)量值。
  經(jīng)本研究發(fā)現(xiàn),當(dāng)實(shí)際數(shù)據(jù)本身質(zhì)量較好時(shí),采用投影尋蹤回歸分析方法在擬合和預(yù)測(cè)效果上均好于多重線性回歸分析方法,不過(guò)二者之間的差別不大。用投影尋蹤回歸分析擬合,決定系數(shù)在0.9703~0.9988之間,相對(duì)誤差均值在0.0039~0.0187之間,預(yù)測(cè)樣本的MSE在12.91~

7、16.77之間;用多重線性回歸分析擬合,決定系數(shù)為0.9639,相對(duì)誤差均值為0.0224,預(yù)測(cè)樣本的MSE為18.80。而對(duì)于模擬數(shù)據(jù)本身質(zhì)量較好時(shí),投影尋蹤回歸分析和多重線性回歸分析二者在擬合和預(yù)測(cè)效果上相差很小,難分高下,二者擬合效果評(píng)價(jià)指標(biāo)決定系數(shù)均在0.9942以上。
  本文分析了三個(gè)自變量間存在共線性的實(shí)際數(shù)據(jù)。對(duì)第一個(gè)存在共線性的數(shù)據(jù)分析結(jié)果為:采用傳統(tǒng)回歸分析方法(主成分回歸、嶺回歸和偏最小二乘回歸)擬合,決定系

8、數(shù)在0.9351~0.9386之間,相對(duì)誤差均值在0.0497~0.0528之間,對(duì)于預(yù)測(cè)樣本的MSE,主成分回歸為1.18,嶺回歸為0.66,PLS回歸為1.14;采用投影尋蹤回歸分析擬合,決定系數(shù)在0.9756~0.9846之間,相對(duì)誤差均值在0.0316~0.0363之間,預(yù)測(cè)樣本的MSE在0.69~0.86之間。對(duì)第二個(gè)存在共線性的數(shù)據(jù)分析結(jié)果為:采用傳統(tǒng)回歸分析方法(主成分回歸、嶺回歸和偏最小二乘回歸)擬合,決定系數(shù)在0.90

9、39~0.9820之間,相對(duì)誤差均值在0.0174~0.0383之間,對(duì)于預(yù)測(cè)樣本的MSE,主成分回歸為126.59,嶺回歸為208.40,PLS回歸為215.82;采用投影尋蹤回歸分析擬合,決定系數(shù)在0.9823~0.9927之間,相對(duì)誤差均值在0.0104~0.0175之間,預(yù)測(cè)樣本的MSE在11.00~27.25之間。對(duì)第三個(gè)存在共線性的數(shù)據(jù)分析結(jié)果為:采用傳統(tǒng)回歸分析方法(主成分回歸、嶺回歸和偏最小二乘回歸)擬合,決定系數(shù)在0.

10、8023~0.8924之間,相對(duì)誤差均值在0.0450~0.0642之間,對(duì)于預(yù)測(cè)樣本的MSE,主成分回歸為0.61,嶺回歸為0.36,PLS回歸為0.23;采用投影尋蹤回歸分析擬合,決定系數(shù)在0.8851~0.9980之間,相對(duì)誤差均值在0.0046~0.0481之間,預(yù)測(cè)樣本的MSE在0.03~0.65之間。
  本文分析了兩個(gè)數(shù)據(jù)中存在異常點(diǎn)的實(shí)際數(shù)據(jù)。對(duì)第一個(gè)存在異常點(diǎn)的數(shù)據(jù)分析結(jié)果顯示不論是采用投影尋蹤回歸分析還是采用穩(wěn)

11、健回歸分析,對(duì)數(shù)據(jù)的擬合效果都很差。傳統(tǒng)回歸分析,決定系數(shù)最高為0.3641;投影尋蹤回歸分析,決定系數(shù)在0.1857~0.6650之間。對(duì)第二個(gè)存在異常點(diǎn)的數(shù)據(jù)分析結(jié)果為:M回歸決定系數(shù)為0.8982,相對(duì)誤差均值為0.1377,預(yù)測(cè)樣本的MSE為3.3919;投影尋蹤回歸分析,決定系數(shù)在0.9423~0.9563之間,相對(duì)誤差均值在0.0899~0.1138之間,預(yù)測(cè)樣本的MSE在2.3604~3.0308之間。
  從本文研

12、究結(jié)果可以得出如下結(jié)論:
  (1)考慮到多重線性回歸分析與投影尋蹤回歸分析對(duì)于數(shù)據(jù)本身質(zhì)量較好時(shí)擬合效果相差不大且擬合決定系數(shù)在0.95以上,并且投影尋蹤回歸分析計(jì)算難于多重線性回歸分析,故在數(shù)據(jù)本身質(zhì)量較好情況下的回歸分析本文推薦采用多重線性回歸方法。
 ?。?)可以認(rèn)為,當(dāng)數(shù)據(jù)存在共線性時(shí)采用投影尋蹤回歸分析方法進(jìn)行分析要好于傳統(tǒng)的對(duì)共線性數(shù)據(jù)的處理辦法(主成分回歸、嶺回歸和偏最小二乘回歸)。
  (3)暫且認(rèn)為

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論