基于支持向量機(jī)方法的QSAR-QSPR在化學(xué)、生物及環(huán)境科學(xué)中的應(yīng)用研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩233頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、本論文將支持向量機(jī)方法引入到生物、化學(xué)及環(huán)境科學(xué)等領(lǐng)域,進(jìn)行高活性藥物的設(shè)計(jì)以及與環(huán)境污染和生命有關(guān)的物質(zhì)重要性質(zhì)的預(yù)測(cè)。根據(jù)支持向量機(jī)方法較好的理論基礎(chǔ)及其在應(yīng)用方面表現(xiàn)出的良好特性,應(yīng)用其解決化學(xué)、生物、環(huán)境等領(lǐng)域以前其他方法還不能完善解決的問(wèn)題,建立準(zhǔn)確、高效的定量結(jié)構(gòu)性質(zhì)/活性關(guān)系模型,不僅能夠從宏觀上快速有效地進(jìn)行新化合物活性/性質(zhì)的預(yù)測(cè),節(jié)約能源,降低環(huán)境污染,而且能夠從分子水平上探討藥物、環(huán)境污染物的作用機(jī)理,同時(shí),促進(jìn)了

2、學(xué)科間的交叉,具有很好的應(yīng)用前景及重要的理論和實(shí)際意義。全文分為五章: 第一章,簡(jiǎn)述了定量結(jié)構(gòu)性質(zhì)/活性關(guān)系的基本原理,實(shí)現(xiàn)步驟以及研究現(xiàn)狀,指出當(dāng)前QSPR/QSAR研究中一些方法的不足,引入支持向量機(jī)方法;然后詳細(xì)描述了SVM的基本原理并綜述了其在QSPR/QSAR中的應(yīng)用。 第二章,將SVM應(yīng)用到生命分析化學(xué)領(lǐng)域,主要包括以下幾個(gè)方面的研究工作:(1)基于GA-PLS選擇的結(jié)構(gòu)描述符,應(yīng)用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RBF

3、NN)和SVM方法建立了預(yù)測(cè)35個(gè)氨基酸的等電點(diǎn)的定量結(jié)構(gòu)性質(zhì)關(guān)系模型。對(duì)于測(cè)試集,RBFNN和SVM模型預(yù)測(cè)的均方根誤差分別為0.496和0.282,表明SVM方法在解決非線性問(wèn)題時(shí)表現(xiàn)出比傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)更好的泛化性,同時(shí)所建立的模型可用于氨基酸等電點(diǎn)的預(yù)測(cè)。(2)應(yīng)用SVM方法研究了多肽的高效液相色譜和毛細(xì)管電泳行為。應(yīng)用啟發(fā)式方法和SVM方法分別建立了預(yù)測(cè)75個(gè)多肽的高效液相色譜行為的線性模型和非線性模型,非線性的SVM模型的

4、結(jié)果優(yōu)于線性模型的結(jié)果,對(duì)于測(cè)試集,預(yù)測(cè)的相關(guān)系數(shù)分別為0.9801,均方根誤差為0.1523。預(yù)測(cè)值與實(shí)驗(yàn)值是非常一致的。所提出的模型可以從分子水平上識(shí)別和提供與肽的容量因子有關(guān)的結(jié)構(gòu)特征。另外,應(yīng)用支持向量機(jī)方法和計(jì)算得到的結(jié)構(gòu)描述符建立了139個(gè)肽的非線性定量結(jié)構(gòu)-淌度關(guān)系模型,建立的模型對(duì)于訓(xùn)練集和測(cè)試集以及整個(gè)數(shù)據(jù)集預(yù)測(cè)的相關(guān)系數(shù)分別為0.925、0.912、0.922。這兩個(gè)研究還提供了在QSPR研究中,處理大分子問(wèn)題的新思

5、路。(3)應(yīng)用支持向量機(jī)方法建立了預(yù)測(cè)26個(gè)取代芳香酸在不同溶劑中的電泳淌度的定量結(jié)構(gòu)-淌度關(guān)系(QSMR)模型,所建立的模型對(duì)于測(cè)試集預(yù)測(cè)的相關(guān)系數(shù)為0.9974,均方根誤差為0.2590。通過(guò)分析得到的模型,可以找出影響取代芳香酸在不同的水-醇溶劑中高效毛細(xì)管電泳行為的結(jié)構(gòu)因素。(4)結(jié)合支持向量機(jī)方法和其他機(jī)器學(xué)習(xí)方法輔助診斷乳腺癌。結(jié)果表明,SVM在臨床診斷乳腺癌和區(qū)定誤分?jǐn)?shù)據(jù)方面,是一種準(zhǔn)確有效的方法。與其他分類方法相比,SV

6、M給出了最好的分類結(jié)果,具有最好的泛化能力。通過(guò)主成分分析和SVM模型中的參數(shù)討論,可以得出單層上皮細(xì)胞的大小、染色質(zhì),細(xì)胞的有絲分裂這三個(gè)參數(shù)對(duì)于決定乳腺癌的狀態(tài)影響不大,這一點(diǎn)可以降低診斷過(guò)程中的工作量。 第三章,通過(guò)構(gòu)效關(guān)系分析將SVM方法應(yīng)用到藥物設(shè)計(jì)領(lǐng)域,具體內(nèi)容包括:(1)應(yīng)用支持向量方法建立了一系列新穎的COX-2選擇性抑制劑的強(qiáng)有力的QSAR模型和二元分類模型,從而為藥物篩選和設(shè)計(jì)提供了一個(gè)實(shí)用的工具。最優(yōu)的SV

7、M回歸模型對(duì)于訓(xùn)練集和測(cè)試集的均方根誤差分別為0.107,0.136。SVM分類模型對(duì)于訓(xùn)練集的準(zhǔn)確率為91.2%,對(duì)于測(cè)試集為88.2%。定量和分類模型的應(yīng)用為COX-2選擇性抑制劑的開發(fā)研究提供了相對(duì)縮小的搜索空間。(2)T-細(xì)胞中的AP-1和NF-κB的轉(zhuǎn)錄活化的抑制對(duì)于新穎的抗炎藥的開發(fā)是一個(gè)非常有吸引力的目標(biāo)。據(jù)報(bào)道,很少有化合物能同時(shí)抑制AP-1和NF-κB的轉(zhuǎn)錄活化。在本研究中,應(yīng)用支持向量機(jī)方法建立了一系列新穎的能同時(shí)抑

8、制AP-1和NF-κB的抑制劑的定量結(jié)構(gòu)活性關(guān)系模型,探討了影響其抑制活性的結(jié)構(gòu)因素,預(yù)測(cè)結(jié)果非常滿意,可以為進(jìn)一步設(shè)計(jì)這類抑制劑提供理論基礎(chǔ)。(3)基于一個(gè)結(jié)構(gòu)各異的化合物數(shù)據(jù)集和僅僅從分子結(jié)構(gòu)出發(fā)計(jì)算得到的結(jié)構(gòu)描述符,應(yīng)用支持向量機(jī)方法建立了文獻(xiàn)未見報(bào)道的用于預(yù)測(cè)藥物吸收行為的模型。從建立的模型,可以得出影響藥物吸收的結(jié)構(gòu)因素主要包括藥物的極性、靜電、氫鍵以及疏水性特征。最優(yōu)的模型對(duì)于訓(xùn)練集和測(cè)試集預(yù)測(cè)的相關(guān)系數(shù)R2分別為0.86,

9、0.73。 第四章,應(yīng)用SVM方法預(yù)測(cè)了有機(jī)污染物的環(huán)境行為。隨著大量的有機(jī)污染物在空氣、水和土壤中的廣泛傳播,環(huán)境問(wèn)題已經(jīng)引起世人的廣泛關(guān)注。理解有機(jī)污染物在自然界中各個(gè)部分的分布對(duì)于評(píng)價(jià)污染物的環(huán)境風(fēng)險(xiǎn)具有重要的意義。然而,不管是在對(duì)于人類還是對(duì)于環(huán)境的風(fēng)險(xiǎn)評(píng)價(jià)中,通過(guò)實(shí)驗(yàn)上的測(cè)定獲得化合物的環(huán)境數(shù)據(jù)不僅非常昂貴而且非常浪費(fèi)時(shí)間。因此,建立理論上的模型來(lái)估算化合物的環(huán)境行為,不僅可以降低成本,節(jié)約時(shí)間,而且可以從宏觀和微觀兩

10、個(gè)方面增強(qiáng)對(duì)于有機(jī)污染物在自然界中分布機(jī)理的理解。在本章中,我們主要研究了兩個(gè)問(wèn)題:(1)應(yīng)用CODESSA軟件計(jì)算的結(jié)構(gòu)描述符并對(duì)其進(jìn)行統(tǒng)計(jì)分析得到了結(jié)構(gòu)各異的122個(gè)鹵代化合物、烷基苯和酚的生物富集因子的多參數(shù)QSPR方程。啟發(fā)式方法和SVM分別用來(lái)建立分子結(jié)構(gòu)和生物富集因子之間的線性和非線性定量關(guān)系模型。對(duì)于測(cè)試集,啟發(fā)式方法和SVM模型預(yù)測(cè)的相關(guān)系數(shù)R2分別為0.933,0.953。通過(guò)建立的模型,可以得出影響非離子和難離解的有

11、機(jī)化合物生物富集過(guò)程的主要結(jié)構(gòu)因素包括化合物極性、非極性作用以及化合物的反應(yīng)性。所提出的模型可以從分子水平上識(shí)別和提供與非離子有機(jī)化合物的生物富集過(guò)程有關(guān)的結(jié)構(gòu)特征,有助于提高我們對(duì)有機(jī)化合物生物富集機(jī)理的認(rèn)識(shí)。(2)應(yīng)用支持向量機(jī)方法和計(jì)算得到的揮發(fā)性和半揮發(fā)性化合物的結(jié)構(gòu)描述符以及土壤的特征表面積,空氣的相對(duì)濕度建立了用于預(yù)測(cè)化合物的土壤/空氣吸附常數(shù)的關(guān)系模型。建立的模型給出了非常滿意的預(yù)測(cè)結(jié)果,對(duì)于整個(gè)數(shù)據(jù)集預(yù)測(cè)的相關(guān)系數(shù)R為0

12、.995,均方誤差為0.0057。通過(guò)討論模型的結(jié)構(gòu)描述符,我們可以得出影響揮發(fā)性和半揮發(fā)性化合物吸附過(guò)程的主要因素包括靜電、氫鍵、立體相互作用以及化合物的反應(yīng)性。 第五章,引入支持向量機(jī)改進(jìn)算法-最小二乘支持向量機(jī)方法,并探討了這一方法的應(yīng)用。作為傳統(tǒng)的SVM方法的簡(jiǎn)化,Suykens和他的合作者提出了一種新的SVM改進(jìn)算法——最小二乘支持向量機(jī)(LSSVM)。LSSVM具有和SVM方法相似的優(yōu)點(diǎn),但是它與SVM方法相比,還具

13、有一個(gè)特別的優(yōu)點(diǎn),就是它僅僅需要解一個(gè)線性方程組(線性規(guī)劃問(wèn)題),與解非線性方程組相比,它要容易得多,計(jì)算上也更加簡(jiǎn)單快速。因而,為了改進(jìn)SVM在實(shí)際應(yīng)用中的不足,引入LSSVM方法來(lái)解決生物、化學(xué)中的問(wèn)題,具體研究工作主要包括:(1)首次應(yīng)用最小二乘支持向量機(jī)方法基于軟件CODESSA計(jì)算得到的結(jié)構(gòu)描述符預(yù)測(cè)C60在性質(zhì)各異的溶劑中的溶解度。啟發(fā)式方法用來(lái)選擇結(jié)構(gòu)參數(shù)和建立線性模型。線性和非線性模型均給出滿意的結(jié)果:對(duì)于整個(gè)數(shù)據(jù)集,預(yù)

14、測(cè)的均方根誤差分別為0.126,0.116,預(yù)測(cè)的相關(guān)系數(shù)R2分別為0.892,0.903。這一研究提供了一種新的有效的從分子結(jié)構(gòu)預(yù)測(cè)C60溶解度的方法。(2)首次應(yīng)用新穎的最小二乘支持向量機(jī)方法以軟件CODESSA計(jì)算得到的結(jié)構(gòu)描述符和在不同組織中的水和蛋白質(zhì)的質(zhì)量分?jǐn)?shù)作為輸入預(yù)測(cè)有機(jī)化合物的組織/血液分配系數(shù)。建立的模型統(tǒng)計(jì)上穩(wěn)定,擬合能力強(qiáng)。最優(yōu)的LSSVM模型對(duì)于訓(xùn)練集,測(cè)試集和整個(gè)數(shù)據(jù)集預(yù)測(cè)的相關(guān)系數(shù)R分別為0.970,0.9

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論