利用人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測原發(fā)性高血壓的研究.pdf_第1頁
已閱讀1頁,還剩46頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、本研究所選擇的現(xiàn)場是遼寧省彰武縣農(nóng)村,經(jīng)調(diào)查該人群高血壓標(biāo)化患病率高達(dá)35%[5],全國罕見。本研究利用這些調(diào)查數(shù)據(jù)建立BP人工神經(jīng)網(wǎng)絡(luò)(back propagation ANNs)預(yù)測模型,并與Logistic回歸模型進(jìn)行比較,利用受試者工作特征曲線(receiver operator characteristic curve,ROC曲線)評價人工神經(jīng)網(wǎng)絡(luò)模型的預(yù)測性能。以探討和評價.ANNs用于疾病預(yù)測的效果和特點,為高血壓等復(fù)雜疾

2、病的預(yù)測探索新的方法,同時對農(nóng)村高血壓病的防治也有一定的參考價值。
   研究對象與方法:
   一、研究對象的選擇
   本研究利用之前在遼寧省彰武縣農(nóng)村進(jìn)行的EH流行病學(xué)調(diào)查的資料進(jìn)行統(tǒng)計、預(yù)測分析。該調(diào)查采用整群多級隨機抽樣的方法總計調(diào)查5208人,最后30歲以上常住人群共計4126名調(diào)查對象被納入本次研究,其中女1942人,男2184人。
   二、調(diào)查內(nèi)容和檢測指標(biāo)
   在現(xiàn)場以問詢和

3、測量的方式填寫調(diào)查表,調(diào)查內(nèi)容主要包括:一般特征,吸煙史,飲酒史等;測量血壓、體重、身高等
   現(xiàn)場每人采血5ml(隔夜空腹),經(jīng)離心后分離血清,分裝冰凍保存用于血清指標(biāo)檢測。
   三、診斷標(biāo)準(zhǔn)和測量方法:
   高血壓診斷是根據(jù)1999年WHO/ISH公布的高血壓診斷標(biāo)準(zhǔn)[6]:收縮壓≥140mmHg和/或舒張壓≥90 mmHg或既往確診的原發(fā)性高血壓者。血壓測量及其他血清生化檢測指標(biāo)由專業(yè)醫(yī)護(hù)人員在標(biāo)準(zhǔn)條

4、件下進(jìn)行測量。
   膽固醇、甘油三酯、HDL、LDL、血清鈉、血清鉀、血清鐵、血清鈣等指標(biāo)的水平采用日本第一化學(xué)提供的7150型全自動生化分析儀,用比色法進(jìn)行分析。血糖水平采用美國強生公司生產(chǎn)的穩(wěn)捷基礎(chǔ)型血糖分析儀,用滴血法進(jìn)行分析。
   四、神經(jīng)網(wǎng)絡(luò)模型的建立
   ANNs模型采用含有一個隱含層的三層BP神經(jīng)網(wǎng)絡(luò)模型。模型輸入層的神經(jīng)元為單因素分析中P<0.05的與高血壓相關(guān)的因素,輸出層有1個神經(jīng)元(即

5、按照診斷標(biāo)準(zhǔn)判斷研究對象是否患高血壓),隱含層的神經(jīng)元個數(shù)通過實驗根據(jù)均方誤差擇優(yōu)確定。隱含層的激活函數(shù)為tansig,輸出層的激活函數(shù)為logsig。
   本研究將4126例資料按照性別、年齡進(jìn)行均衡后按3:1的比例隨機分為訓(xùn)練總集(3096例)和測試集(1030例)兩部分,分別用于模型的建立和測試。為了防止.ANNs過渡擬合,在ANNs模型的訓(xùn)練過程中,又將訓(xùn)練總集(3096例)按3:1的比例隨機分為訓(xùn)練集(2334例)和

6、檢驗集(762例),利用檢驗集時時地檢查訓(xùn)練效果。
   五、資料統(tǒng)計分析方法
   用Matlab7.1軟件編程建立ANNs預(yù)測模型。用spss13.0統(tǒng)計軟件建立二分類非條件Logistic回歸的高血壓預(yù)測模型和繪制模型預(yù)測識別的ROC曲線。預(yù)測概率的判別標(biāo)準(zhǔn)為0.5,即p≥0.5時預(yù)測結(jié)果為患高血壓,否則為不患高血壓。統(tǒng)計學(xué)顯著性水平規(guī)定為α=0.05。
   結(jié)果:
   一、非條件單因素Logi

7、stic回歸模型進(jìn)行高血壓預(yù)測
   對調(diào)查數(shù)據(jù)進(jìn)行高血壓的單因素分析,篩選出p<0.05的因素作為預(yù)測模型的輸入變量,共22個因素與高血壓有關(guān)。
   二、非條件多因素Logistic回歸模型進(jìn)行高血壓預(yù)測
   (一)建立非條件多因素Logistic回歸模型
   對訓(xùn)練總集的3096例樣本進(jìn)行非條件多因素Logistic回歸分析,將單因素篩選出的指標(biāo)作為自變量(身高、體重已轉(zhuǎn)化為BMI故未進(jìn)入模型)

8、,以研究對象是否患高血壓為因變量建立多因素Logistic回歸模型。模型采用最大似然估計前進(jìn)法進(jìn)行逐步回歸分析,入選變量的標(biāo)準(zhǔn)是p<0.05,剔除變量的標(biāo)準(zhǔn)是p>0.10。經(jīng)逐步回歸后,共有9個因素進(jìn)入模型,模型改善情況檢驗(x2=4.335)和整個模型檢驗(x2:1439.457)。整個訓(xùn)練總集的分類一致率為78.42%,特異度為80.45%,靈敏度為76.62%。
   (二)利用非條件多因素Logistic回歸模型預(yù)測

9、r>   用上述Logistic回歸模型預(yù)測測試集(1030例)研究對象是否患高血壓。經(jīng)模型預(yù)測,測試集一致率為77.48%,特異度為80%,靈敏度為74.85%。
   三、BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測
   (一)建立BP神經(jīng)網(wǎng)絡(luò)模型
   建立一個三層的BPANNs模型,以單因素篩選出的全部22個因素作為輸入變量,其隱含層設(shè)為22個神經(jīng)元,輸出層1個神經(jīng)元(即是否患EH)。目標(biāo)誤差取0.01,學(xué)習(xí)速率取0.1

10、,最大訓(xùn)練周期2000。經(jīng)過17步訓(xùn)練,此時訓(xùn)練中均方誤差MSE為0.126262,梯度Gradient為137.276/le-010,網(wǎng)絡(luò)的訓(xùn)練由于檢驗集均方誤差達(dá)到極小值而結(jié)束。測試訓(xùn)練好的BPANNs模型的擬合效果,訓(xùn)練集的分類一致率為81.06%,檢驗集的分類一致率為77.95%,整個訓(xùn)練總集的分類一致率為80.30%,特異度為84.48%,靈敏度為76.16%。
   (二)利用BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行預(yù)測
  

11、用上述BPANNs模型預(yù)測測試集(1030例)研究對象是否患高血壓,測試結(jié)果見表5。其測試集分類一致率為78.83%,特異度為81.57%,靈敏度為76.42%。
   四、BP神經(jīng)網(wǎng)絡(luò)模型與Logistic回歸模型高血壓預(yù)測比較
   (一)預(yù)測結(jié)果的比較
   神經(jīng)網(wǎng)絡(luò)模型的分類一致率、靈敏度、特異度均高于Logistic回歸模型。
   (二)ROC曲線面積比較
   利用SSPS13.0繪

12、出多因素Logistic回歸模型和BPANNs模型的ROC曲線,多因素Logistic回歸模型的ROE曲線下面積為0.782,95%可信區(qū)間為[0.768,0.797],BPANNs模型的ROC曲線下面積為0.800,95%可信區(qū)間為[0.786,0.814]。
   討論:
   高血壓的病因復(fù)雜,影響高血壓患病的危險因素是多方面的,一些危險因素之間可能存在交互作用、多重共線性,這些復(fù)雜的關(guān)系影響預(yù)測模型的擬合,嚴(yán)重干

13、擾了高血壓的預(yù)測和病因研究工作。因此本研究利用遼寧省彰武縣農(nóng)村人群的調(diào)查資料建立高血壓的神經(jīng)網(wǎng)絡(luò)預(yù)測模型,并與傳統(tǒng)方法的Logistic回歸模型相比較,以探討神經(jīng)網(wǎng)絡(luò)模型預(yù)測高血壓發(fā)病的能力。
   神經(jīng)網(wǎng)絡(luò)模型建立過程中各函數(shù)、參數(shù)的設(shè)置并沒有統(tǒng)一的標(biāo)準(zhǔn),需要針對具體問題具體分析。本研究建立的模型是以誤差反向后傳學(xué)習(xí)算法而得名的BP神經(jīng)網(wǎng)絡(luò),它是醫(yī)學(xué)領(lǐng)域應(yīng)用最廣泛的一種神經(jīng)網(wǎng)絡(luò),集中體現(xiàn)了神經(jīng)網(wǎng)絡(luò)中最精華的部分。因為對于任何在

14、閉區(qū)間內(nèi)的一個連續(xù)函數(shù)都可以用單隱含層的BP神經(jīng)網(wǎng)絡(luò)逼近[10],所以本研究采用了含有一個隱含層的三層BP神經(jīng)網(wǎng)絡(luò)??紤]到輸入層神經(jīng)元個數(shù)過多對樣本量的要求較高,所以只選擇了與高血壓密切相關(guān)的因素作為輸入變量,即單因素分析中p<0.05的因素。對于輸入變量中的多分類變量(如民族)采取設(shè)置啞變量的處理方法,以方便模型更好的利用數(shù)據(jù)信息。隱含層的神經(jīng)元個數(shù)和訓(xùn)練函數(shù)是根據(jù)試驗來確定的,試驗顯示,相對于其他取值,神經(jīng)元個數(shù)為22訓(xùn)練函數(shù)為tr

15、ainlm時均方誤差既小又穩(wěn)定,網(wǎng)絡(luò)的初始權(quán)值取(0~1)區(qū)間的隨機數(shù),由于初始值不同建立ANNs模型也不同,所以經(jīng)多次試驗選出最優(yōu)的模型。為了避免過度擬合,本研究利用檢驗集在訓(xùn)練過程中隨時監(jiān)督訓(xùn)練。
   在本研究中,神經(jīng)網(wǎng)絡(luò)模型的分類一致率、靈敏度、特異度均高于Logistic回歸模型,Logistic回歸模型的分類一致率為77.48%,神經(jīng)網(wǎng)絡(luò)模型為78.83%。可以看出神經(jīng)網(wǎng)絡(luò)模型的預(yù)測能力略優(yōu)于Logistic回歸模型

16、。本研究利用ROC曲線來評價兩種模型的預(yù)測效果,Logistic回歸模型和ANNs模型的AUC分別為0.782,0.800,同樣提示,對于高血壓這樣的致病因素多而且各因素間關(guān)系復(fù)雜的疾病,神經(jīng)網(wǎng)絡(luò)模型的擬合效果略好一些。
   神經(jīng)網(wǎng)絡(luò)尚存在一些問題有待解決。首先,神經(jīng)網(wǎng)絡(luò)的建立隨著參數(shù)、函數(shù)、初始值等的設(shè)置而變化,這些設(shè)置的正確性缺乏理論依據(jù),只能依靠經(jīng)驗和試驗來確定[15];其次,神經(jīng)網(wǎng)絡(luò)不能像Logistic回歸模型那樣有

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論