支持向量機(SVM)和徑向基神經(jīng)網(wǎng)絡(RBFNN)方法在化學、環(huán)境化學和藥物化學中的應用研究.pdf_第1頁
已閱讀1頁,還剩197頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

1、定量結構-性質/活性相關(QSPR/QSAR)研究是計算化學和化學信息學研究中的重要研究熱點之一。它主要應用各種統(tǒng)計學方法和理論計算方法研究有機化合物的結構與其各種物理化學性質以及生物活性之間的定量關系。QSPR/QSAR的研究對象包括化合物的各種物理化學性質、生物活性、毒性、藥物的各種代謝動力學參數(shù)等等,研究領域涉及化學、化工、環(huán)境化學、藥物化學等諸多學科。建立準確的定量數(shù)學模型一直是QSPR/QSAR研究的追求目標之一,而建模方法又

2、是決定模型好壞的一個關鍵因素,因此新方法的發(fā)展一直是QSPR/QSAR研究中的一個重要任務。本論文在研究小組過去10余年來對神經(jīng)網(wǎng)絡方法(ANN),包括BP網(wǎng)絡和RBFNN網(wǎng)絡的研究基礎上,將支持向量機(SVM)方法應用到化學、環(huán)境化學和藥物化學等領域中,進行了1100多種化學物質的性質、環(huán)境毒物的毒性和藥物有關的性質的預測,建立了準確的定量結構性質/活性關系模型。論文第一章簡述了定量結構性質/活性關系(QSPR/QSAR)的基本原理,

3、研究過程以及研究現(xiàn)狀,其中在研究過程中著重介紹了建模方法。在指出當前神經(jīng)網(wǎng)絡建模方法不足的基礎上,詳細介紹了一種新的機器學習算法一支持向量機方法,并概括和展望了其在QSPR/QSAR中的應用。 在第二章中,我們將SVM和RBFNN方法應用到化學領域中,主要包括以下幾個方面的研究工作: (1)應用多元線性回歸(MLR)和SVM方法建立了預測364個有機化合物的范德華常數(shù)的QSPR模型。MLR不僅用來建立線性回歸模型,同時也

4、作為選擇SVM輸入描述符的方法。SVM模型的訓練集、交互檢驗集、測試集和整個數(shù)據(jù)集的均方誤差(MeanSquareError,MSE)分別為:常數(shù)a:5.96,8.00,6.67和6.65;常數(shù)b:9.56×10-5,3.18×10-4,4.22×10-4和2.33×10-4。 (2)應用啟發(fā)式(HM)和SVM方法分別建立了149個易揮發(fā)有機化合物的氣相色譜保留時間和5個分子描述符之間的線性和非線性QSRR模型。非線性的SVM模

5、型的結果優(yōu)于線性HM模型的結果,對于測試集均方誤差MSE分別為1.094和1.644。而且預測值與實驗值是非常一致的。 (3)用HM和RBFNN方法建立了預測63個有機小分子化合物在低密度聚乙烯上的滲透系數(shù)的定量模型。它建立的模型與以往的模型相比,有同樣的可靠性。這就說明本研究所用的方法是聚合物研究領域中可靠且實用的方法之一。 在第三章中,我們將SVM和RBFNN方法應用到環(huán)境化學領域,主要進行了以下幾個方面的研究工作:

6、 (1)應用SVM方法對148個N-亞硝基化合物的致癌性進行了分類研究。模型中的7個描述符都是通過計算得到,且用前向性逐步線性判別分析(LDA)方法選出作為SVM的輸入。SVM分類模型對訓練集的準確率為97.4%,測試集是86.6%。通過分析,指出了立體和靜電因素是影響此類化合物的致癌性的主要的分子結構因素。該模型對判別N-亞硝基化合物的致癌性提供了簡便、有效的方法。 (2)用SVM和HM方法分別建立了93個多氯二聯(lián)苯二

7、噁英(PCDDs)、多氯二聯(lián)苯呋喃(PCDFs)、多氯聯(lián)苯(PCBs)和AhR(arylhydrocarbonreceptor)的結合力與它們結構描述符之間的定量結構活性相關模型。用HM方法建立了線性相關模型,然后用相同的描述符作為SVM的輸入,建立了非線性的定量結構活性相關模型。HM模型的測試集的均方根誤差(RootMeanSquareError,RMS)是0.667,相關系數(shù)是0.845。SVM模型對測試集的均方根誤差RMS為0.3

8、24,相關系數(shù)是0.928。本工作證明一個單一的QSAR模型就可以用來預測不同類別的PCDFs、PCDDs和PCBs與AhR的結合力。 (3)應用多種統(tǒng)計方法(LDA,SVM,HM,RBFNN)研究了142個易揮發(fā)有機化合物的感官刺激性(1ogRD50)。分別建立了此類化合物的分類和回歸模型。最好的分類模型是SVM模型,所得模型對訓練集、測試集和整個數(shù)據(jù)集的準確率分別為96.5%,85.7%和94.4%。非線性的回歸模型分別用S

9、VM和RBFNN建立。所得的SVM模型的統(tǒng)計結果是:反應組的訓練集、測試集和整個數(shù)據(jù)集的均方根誤差RMS分別是0.4415,0.7430和0.514;相對應的相關系數(shù)是0.910,0.874和0759。對非反應組的訓練集、測試集和整個數(shù)據(jù)集的均方根誤差RMS分別是0.372,0.452和0.405;相對應的相關系數(shù)是0.900,0.859和0.888。所得RBFNN模型的統(tǒng)計結果是:(1)反應組的訓練集、測試集和整個數(shù)據(jù)集的均方根誤差R

10、MS分別是0.4755,0.6342和0.5009;相對應的相關系數(shù)是0.8892,0.8805和0.8770。(2)非反應組訓練集、測試集和整個數(shù)據(jù)集的均方根誤差RMS分別是0.2430,0.4798和0.3064;相對應的相關系數(shù)是0.9580,0.8578和0.9340。所建立的模型可以用來估算化合物的不同的環(huán)境行為,不僅可以降低估算化合物環(huán)境行為的成本,節(jié)約時間,而且可以從宏觀和微觀兩個方面增強對于有機污染物在自然界中分布機理的

11、理解。 (4)用HM方法建立了100個易揮發(fā)有機化合物在大鼠血液和空氣中分配系數(shù)的數(shù)學模型。在計算大量的分子描述符的基礎上,首先用啟發(fā)式方法篩選出5個能代表化合物分子結構的描述符,然后用多元線性回歸方法建立了線性模型。所建模型具有較好的預測能力,相關系數(shù)的平方的平均值達到0.8832。本文提供了一個估計此類化合物分配系數(shù)的簡單、快速、有效方法。 在第四章中,我們將SVM和RBFNN方法應用到藥物化學領域,研究工作的內(nèi)容包

12、括以下兩個方面: (1)用RBFNN和HM建立了預測74個中性和堿性藥物pKa值的QSPR模型。所得HM模型的統(tǒng)計參數(shù)是:訓練集R=0.884,RMS=0.482;測試集R=0.693,RMS=0.987。整個數(shù)據(jù)集的均方根誤差RMS是0.619。而RBFNN模型的參數(shù)是:訓練集,R=0.886,RMS=0.458;測試集R=0.737,RMS=0.613。整個數(shù)據(jù)集的均方根誤差RMS是0.493。所建模型可以在藥物發(fā)現(xiàn)過程中預

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論