畢業(yè)論文抗結(jié)核病藥物的3d-qsar定量結(jié)構(gòu)性質(zhì)關(guān)系研究_第1頁
已閱讀1頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、<p>  抗結(jié)核病藥物的3D-QSAR定量結(jié)構(gòu)性質(zhì)關(guān)系研究</p><p><b>  摘 要</b></p><p>  采用三維全息原子場作用矢量(3D-HoVAIF)和基于虛擬蛋白質(zhì)受體原子探針的分子表面隨機采樣分析(RaSMS)對25個查耳酮類抗結(jié)核病藥物進行定量構(gòu)效關(guān)系(QSAR)研究。運用多元線性回歸(Multiple linear regre

2、ssion, MLR)及偏最小二乘回歸(partial least square regression, PLS)建模,同時采用內(nèi)部及外部雙重驗證的辦法對所得模型穩(wěn)定性能進行了深入分析和檢驗。采用3D-HoVAIF 的MLR及PLS建模的復(fù)相關(guān)系數(shù)(Rcum2)、留一法(leave-one-out, LOO)交互校驗(cross-validation, CV)復(fù)相關(guān)系數(shù)(QLOO2)和外部樣本校驗復(fù)相關(guān)系數(shù)(Qext2)分別為0.984

3、、0.920、0.808和0.998、0.975、0.903;采用RaSMS分別為 0.975、0.914、0.764和0.926、0.905、0.829。結(jié)果表明,3D-HoVAIF和RaSMS都有較好表征抗結(jié)核藥物分子結(jié)構(gòu)信息,因而能建立具有良好穩(wěn)定性和預(yù)測能力的QSAR模型。</p><p>  關(guān)鍵詞:體外抗菌活性,抗結(jié)核病藥物,三維全息原子場作用矢量,比較分子/虛擬受體相互作用分析法,定量構(gòu)效關(guān)系<

4、;/p><p>  Anti-TB drugs by 3D-QSAR Quantitative Structure-Property Relationship Study</p><p><b>  ABSTRACT</b></p><p>  A newly developed three-dimensional holographic vect

5、or of atomic interaction field (3D-HoVAIF) and Protein-based virtual surface receptor molecule atom probe analysis of random sampling (RaSMS) were used to describe the chemical structures of 25 Chalcone as antituberculos

6、is agents. Here quantitative structure activity relationship (QSAR) models were built by Multiple linear regression (MLR) and partial least square regression (PLS). The estimation stability and generalization ability of

7、these mo</p><p>  KEY WORDS: in vitro antibacterial activity, anti-tuberculosis drug, three-dimensional holographic vector of atomic interaction field, quantitative (3D-HoVAIF), Protein-based virtual surface

8、 receptor molecule atom probe analysis of random sampling (RaSMS), structure-activity relationship (QSAR)</p><p><b>  目 錄</b></p><p><b>  摘 要I</b></p><p>  

9、ABSTRACTII</p><p><b>  1 引 言1</b></p><p>  1.1 結(jié)核病和抗結(jié)核病藥物簡介1</p><p>  1.1.1 結(jié)核病簡介1</p><p>  1.1.2 抗菌活性1</p><p>  1.1.3 抗結(jié)核病藥物的發(fā)展歷史1</p

10、><p>  1.1.4 抗結(jié)合藥物回顧2</p><p>  1.1.5 抗結(jié)核新藥研究開發(fā)的現(xiàn)狀2</p><p>  1.2計量化學(xué)簡介4</p><p>  1.3 計算機輔助藥物分子設(shè)計的基本理論與方法5</p><p>  1.3.1 計算機藥物輔助設(shè)計的基本理論5</p><p&

11、gt;  1.3.2 常用的計算機輔助藥物設(shè)計方法5</p><p>  1.4 定量構(gòu)效關(guān)系研究5</p><p>  1.4.1 定量構(gòu)效關(guān)系研究的基本理論5</p><p>  1.4.2 定量構(gòu)效關(guān)系研究的發(fā)展6</p><p>  1.4.3 定量構(gòu)效關(guān)系研究的意義7</p><p>  1.4.4

12、 定量構(gòu)效關(guān)系的研究現(xiàn)狀7</p><p><b>  2 原理與方法9</b></p><p>  2.1 三維全息原子場作用矢量(3D-HoVAIF)的基本概念及相關(guān)計算9</p><p>  2.2 基于虛擬蛋白質(zhì)受體原子探針的分子表面隨機采樣分析(RaSMS)的基本概念及相關(guān)計算15</p><p>  

13、2.2.1 蛋白質(zhì)受體原子探針15</p><p>  2.2.2 虛擬受體可及表面16</p><p>  2.2.3 藥物分子中常見原子分類17</p><p>  2.2.4 探針原子與藥物配體的作用模式17</p><p>  2.2.5 RaSMS實現(xiàn)過程18</p><p>  2.3 多元線性回

14、歸原理19</p><p>  2.4 偏最小二乘法原理20</p><p>  3 模型的建立與檢驗22</p><p>  3.1 數(shù)據(jù)采集22</p><p>  3.2 變量篩選23</p><p>  3.3 多元線性回歸建模24</p><p>  3.3.1模型的建立

15、24</p><p>  3.3.2 模型的檢驗26</p><p>  3.4 偏最小二乘建模27</p><p>  3.4.1 模型的建立27</p><p>  3.4.2 模型的檢驗30</p><p><b>  4 結(jié)論33</b></p><p>

16、<b>  致 謝34</b></p><p>  參 考 文 獻35</p><p><b>  1 引 言</b></p><p>  1.1 結(jié)核病和抗結(jié)核病藥物簡介</p><p>  1.1.1 結(jié)核病簡介</p><p>  結(jié)核病(tuberculosis,

17、 TB)是結(jié)核分枝桿菌(Mycobacterium tuberculosis, MTB)引起的感染性疾病,可侵犯全身各器官,以肺結(jié)核最為多見。它是一種發(fā)展緩慢、如果不加治療能導(dǎo)致長期健康不良及死亡的疾病。</p><p>  結(jié)核病在過去被稱為“癆病”。它是由于感染結(jié)核桿菌而引起的一種慢性傳染病。它傳染性強,散播面廣,而且不分地域、季節(jié)均可能發(fā)生。結(jié)核病主要是通過空氣傳播的呼吸道傳染病,此外還可以通過消化道、皮膚

18、、胎盤和生殖器等途徑傳染。對人類來說,普遍對結(jié)核菌易感,但感染后是否發(fā)病決定于結(jié)核菌的毒力、數(shù)量以及人體抵抗力。尤其是人體的抵抗力減退,就容易發(fā)生結(jié)核病[1]。</p><p>  全球有1/3人口感染了結(jié)核桿菌,其中99%的結(jié)核病死亡者分布在發(fā)展中國家?;疾÷矢?、死亡率高、耐藥率高、年遞降率低是結(jié)核病近年的疫情特征。100多年以來,雖有不少抗結(jié)核病藥物被發(fā)現(xiàn),但每年仍有30萬人死于結(jié)核病,其中主要是14~55歲

19、的青年和中年人。近幾年,結(jié)核發(fā)病率有上升趨勢。據(jù)專家預(yù)測,如不采取有力措施,未來10年內(nèi)全球?qū)⒂?000萬人死于結(jié)核病。全球每年有1%的人被結(jié)核桿菌感染,現(xiàn)有活動性肺結(jié)核病人2000萬,每10秒鐘就有1人死于結(jié)核病,每4秒鐘就有1人患上結(jié)核病。我國現(xiàn)有活動性肺結(jié)核病人600萬,每年因結(jié)核病死亡25萬人。</p><p>  1.1.2 抗菌活性</p><p>  抗菌活性是指抗菌藥抑制或

20、殺滅病原微生物的能力??捎皿w外抑菌試驗和體內(nèi)實驗治療法測定。體外抑菌實驗對臨床用藥具有重要參考意義。能夠抑制培養(yǎng)基內(nèi)細菌生長的最低濃度為最小抑菌濃度(minimal inhibitory concentration, MIC)。以殺滅細菌為評定標準時,使活菌總數(shù)減少99%或99.5%以上,稱為最小殺菌濃度(minimal bactericidal concentration, MBC)。在一批實驗中能抑制50%或90%受試菌所需MIC,

21、分別稱為MIC50及MIC90。抗菌藥的抑菌作用和殺菌作用是相對,有些抗菌藥在低濃度時呈抑菌作用,而高濃度呈殺菌作用。</p><p>  1.1.3 抗結(jié)核病藥物的發(fā)展歷史</p><p>  最早出現(xiàn)的有效抗結(jié)核藥物當數(shù)鏈霉素(SM)。它發(fā)現(xiàn)于20世紀40年代,當時單用SM治療肺結(jié)核2~3個月后就可使臨床癥狀和X線影像得以改善,并可暫獲痰菌陰轉(zhuǎn)。對氨水楊酸(PAS)被應(yīng)用于臨床后發(fā)現(xiàn),

22、SM加PAS的治療效果優(yōu)于單一用藥,而且可以防止結(jié)核分支桿菌產(chǎn)生耐藥性。發(fā)明異煙肼(INH)后,有人單用INH和聯(lián)用INH+PAS或SM進行對比治療試驗,再一次證明了聯(lián)合用藥的優(yōu)勢。于是在此基礎(chǔ)上產(chǎn)生了著名的結(jié)核病“標準”化療方案,即SM+INH+PAS,療程一年半至兩年,并可根據(jù)藥源和患者的耐受性將PAS替換為乙胺丁醇(EMB)或氨硫脲(TB1),俗稱“老三化”。20世紀70年代隨著利福平(RFP)在臨床上的應(yīng)用以及對吡嗪酰胺(PZA

23、)的重新認識,在經(jīng)過大量的實驗后,短程化療成為結(jié)核病治療的最大熱點,并取得了令人矚目的成就。</p><p>  1.1.4 抗結(jié)合藥物回顧</p><p>  自1944年發(fā)現(xiàn)鏈霉素,20世紀50~60年代發(fā)現(xiàn)異煙肼與利福平以來,相繼有多種抗結(jié)核藥問世。根據(jù)抗菌作用強弱可分為:1)具有殺菌作用的藥物。如異煙肼、利福平、鏈霉素、卡那霉素、卷曲霉素、乙硫異煙胺、吡嗪酰胺等。2)具有一定殺菌作

24、用的藥物。如氧氟沙星、左氧氟沙星等喹諾酮類抗菌藥。3)具有抑菌作用的藥物。如乙胺丁醇、環(huán)絲氨酸、對氨基水楊酸等。按臨床應(yīng)用可分為一線與二線抗結(jié)核藥。前者有異煙肼(NH)、利福平(RFP)、鏈霉素(SM)、吡嗪酰胺(PZA)、乙胺丁醇(EB);后者有乙硫異煙胺(ETH)、卡那霉素(KM)、環(huán)絲氨酸(CS)、卷曲霉素(CPM)、氨硫脲(TBL)、對氨基水楊酸(PAS)、氧氟沙星(OFLX)[2]。</p><p> 

25、 1.1.5 抗結(jié)核新藥研究開發(fā)的現(xiàn)狀</p><p>  近年來抗結(jié)核藥物的研究開發(fā)獲得進一步的發(fā)展,發(fā)現(xiàn)了一些有苗頭的新化合物,開發(fā)的前景也很廣闊。</p><p><b>  1) 利福霉素類</b></p><p>  利福噴丁于1998年在美國獲得批準用于治療結(jié)核病。利福布丁獲準用于HIV合并結(jié)核病不能應(yīng)用利福平的患者。苯并口惡嗪利福

26、霉素(rifalazil, KRM-1648, RLZ)比利福平具有更強的殺菌作用,對結(jié)核分枝桿菌的MIC比利福平強64倍,而半衰期長60h,在小鼠結(jié)核病治療實驗中RLZ加吡嗪酰胺的聯(lián)合滅菌效果可與異煙肼與利福平的聯(lián)合治療效果相比擬,而在停藥后復(fù)發(fā)率更低?,F(xiàn)進入Ⅱ期臨床研究。但利福霉素類藥物存在交叉耐藥性,且有動物實驗結(jié)果表明它們均對MDR-TB無效。</p><p>  2) 氟喹諾酮類(FQs)</p&

27、gt;<p>  研究發(fā)現(xiàn)本類中第三代、第四代氟喹諾酮類藥物中有不少具有較強的抗結(jié)核分枝桿菌活性,對非結(jié)核分枝桿菌亦有作用,目前環(huán)丙沙星、氧氟沙星、左氧氟沙星等成為治療MDR-TB的主要選擇藥物。莫西沙星(moxiflox acin) ( MIC 0. 25 Lg/ ml)[3]、加替沙星(gatiflox acin) (0. 25Lg/ml)[4]和加侖諾沙星(garenox acin)等第四代FQs顯示更強的抗結(jié)核活性

28、,具有一定的開發(fā)潛力。</p><p>  3) 新大環(huán)內(nèi)酯類藥物(克拉霉素、阿奇霉素、羅紅霉素)</p><p>  這類藥物是紅霉素的衍生物,抗分枝桿菌的作用機制是菌體內(nèi)核糖體的SOS亞基可逆性結(jié)合,干擾蛋白質(zhì)的合成。其中羅紅霉素抗結(jié)核分枝桿菌作用最強。與利福平和異煙肼有協(xié)同作用。此類藥物有良好的藥動學(xué)特征,口服易吸收,組織穿透性好,組織細胞內(nèi)濃度高于血藥濃度,并有中等長的半衰期,新大

29、環(huán)內(nèi)酯類藥物主要用于非結(jié)核分枝桿菌感染和耐多藥結(jié)核病的治療。</p><p><b>  4) 惡唑烷酮類</b></p><p>  本類屬于新型的合成抗菌劑,具有廣譜的抗分枝桿菌作用,作用機制是通過與50S核糖體亞單位相結(jié)合抑制細菌蛋白質(zhì)的合成,目前正從中開發(fā)抗革蘭陽性耐藥菌和抗分枝桿菌的新藥。其中PNU-100480在治療小鼠結(jié)核感染中證實其療效,劑量100 m

30、g/kg時與異煙肼25 mg/kg的效果相當,此外在合并的實驗中發(fā)現(xiàn)其作用與異煙肼或利福平在不同實驗中的活性[5]。另一藥利奈唑酮(Linezolid)在小鼠實驗治療中比PNU-100480和異煙肼稍差,已試用于耐藥結(jié)核病的治療并取得明顯的療效[6],但因有血液學(xué)毒性等及價格昂貴等問題而受限。</p><p>  5) 硝基咪唑并吡喃類</p><p>  源于20世紀70年代印度研究者的

31、發(fā)現(xiàn),CGI-17341對耐藥結(jié)核分枝桿菌的MIC為0.1~0.3 Lg/ml,體外抗結(jié)核活性近于異煙肼、利福平,動物實驗結(jié)果亦然,與其他抗結(jié)核藥物無交叉耐藥,是有希望的抗結(jié)核藥,正處于Ⅰ期臨床研究階段。本類中篩選出硝基咪唑并吡喃有效化合物PA-824對敏感結(jié)核分枝桿菌和單耐利福平結(jié)核分之桿菌的MIC是0.015~0.25 Lg/ml,多耐藥結(jié)核分枝桿菌對PA-824同樣敏感,與現(xiàn)有的抗結(jié)核藥物無交叉耐藥性[7]。體外實驗發(fā)現(xiàn)PA-82

32、4在低氧環(huán)境下培養(yǎng)的非復(fù)制期結(jié)核分枝桿菌模型中有作用,其活性類似于甲硝唑,明顯強于CGI-17341和異煙肼(異煙肼對此模型中的結(jié)核分枝桿菌無作用)。應(yīng)用結(jié)核分枝桿菌報告熒光素酶表達的菌株的短期小鼠感染模型對50種以上的NAPs化合物的體內(nèi)活性測定時發(fā)現(xiàn),雖然PA-824的體外抗結(jié)核活性不是最強的, 但在口服25 mg/kg劑量下具有最強的體內(nèi)活性,說明PA-824具有較NAPs中其他化合物良好的藥動學(xué)特征。急性動物毒性實驗LD50是1

33、000 mg/kg,500 mg/kg連續(xù)口服28d,未出現(xiàn)明顯不良反應(yīng)。PA-824對</p><p><b>  6) 吩噻嗪類</b></p><p>  氯法齊明(氯苯吩嗪,clofazimine, CFM)是一種用于麻風(fēng)病的藥物,近年來開始試用于耐藥結(jié)核病的治療。CFM是一種吩嗪染料,通過與分枝桿菌的DNA結(jié)合抑制轉(zhuǎn)錄而產(chǎn)生抑制分枝桿菌生長的效果。硫利達嗪(

34、thioridazine)[9]是抗精神病藥,服藥后耐受性較好,氯丙嗪對敏感菌及耐藥菌均有效在體外減慢結(jié)核分枝桿菌的生長。此類藥物對人體結(jié)核病的治療作用尚有待進一步研究。</p><p>  7) 脂肪酸和分枝菌酸合成的抑制劑是抗結(jié)核藥物開發(fā)的一個新領(lǐng)域。硫內(nèi)酯霉素(thio lactomy cin, TLM)在試管內(nèi)小鼠巨噬細胞模型中顯示,TLM有殺滅細胞內(nèi)結(jié)核分枝桿菌作用并呈劑量依賴性。辛磺酰基乙酰胺(N-o

35、ctanesulfony lacetamide, OSA)對耐異煙肼和多耐藥結(jié)核分枝桿菌的MIC分別為6.25和12.5 Lg/ ml。</p><p>  8) 硫乙酰霉素[10]Glax o-Smithkline公司抗結(jié)核藥項目執(zhí)行董事Duncan博士稱,公司正與美國國立衛(wèi)生研究所(NIH)合作開發(fā)一種天然抗結(jié)核藥物——硫乙酰霉素,這種低分子量化合物在體內(nèi)和體外均具有抗結(jié)核能力,對耐藥結(jié)核分枝桿菌亦有作用,該

36、研制始于2001年,進入臨床應(yīng)用可能尚需數(shù)年[11]。</p><p><b>  1.2計量化學(xué)簡介</b></p><p>  又稱化學(xué)統(tǒng)計學(xué),數(shù)學(xué)、統(tǒng)計學(xué)、計算機科學(xué)與化學(xué)結(jié)合而形成的化學(xué)分支學(xué)科。它應(yīng)用數(shù)學(xué)、統(tǒng)計學(xué)和其他方法和手段(包括計算機)選擇最優(yōu)試驗設(shè)計和測量方法,并通過對測量數(shù)據(jù)的處理和解析,最大限度地獲取有關(guān)物質(zhì)系統(tǒng)的成分、結(jié)構(gòu)及其他相關(guān)信息。<

37、;/p><p>  化學(xué)計量學(xué)是瑞典Umea大學(xué)S.沃爾德(S.Wold)在1971年首先提出來的。1974年美國B.R.科瓦斯基和沃爾德共同倡議成立了化學(xué)計量學(xué)學(xué)會。化學(xué)計量學(xué)在80年代有了較大的發(fā)展,各種新的化學(xué)計量學(xué)算法的基礎(chǔ)及應(yīng)用研究取得了長足的進展,成為化學(xué)與分析化學(xué)發(fā)展的重要前沿領(lǐng)域。它的興起有力地推動了化學(xué)和分析化學(xué)的發(fā)展,為分析化學(xué)工作者優(yōu)化試驗設(shè)計和測量方法、科學(xué)處理和解析數(shù)據(jù)并從中提取有用信息,開

38、拓了新的思路,提供了新的手段。 </p><p>  化學(xué)計量學(xué)的研究對象是有關(guān)化學(xué)量測的基礎(chǔ)理論和方法學(xué)。它所研究的內(nèi)容包括:統(tǒng)計學(xué)和統(tǒng)計方法;分析信息理論;采樣;試驗優(yōu)化與設(shè)計;分析校正理論;分析信號檢測和分析信號處理;化學(xué)模式識別;圖像分析;構(gòu)效關(guān)系研究;人工智能和專家系統(tǒng);人工神經(jīng)元網(wǎng)絡(luò)與自適應(yīng)化學(xué)模式識別;庫檢索等。其任務(wù)是研究有關(guān)化學(xué)測量的理論與方法學(xué),應(yīng)用數(shù)學(xué)、統(tǒng)計學(xué)與信息理論、計算機科學(xué)的方法和手

39、段,科學(xué)地設(shè)計化學(xué)實驗,選擇最優(yōu)的測量方法,最有效地獲取體系有用的特征數(shù)據(jù),并通過解析測量數(shù)據(jù)最大限度地從中提取有關(guān)物質(zhì)的定性、定量、形態(tài)、結(jié)構(gòu)等信息。它是一門正在發(fā)展的新興學(xué)科,其主要研究內(nèi)容包括統(tǒng)計學(xué)與統(tǒng)計方法、校正理論、模型估計和參數(shù)估計、實驗設(shè)計和優(yōu)化方法、分析信號處理、化學(xué)模式識別、定量構(gòu)效關(guān)系、人工智能和專家系統(tǒng)、軟件和庫檢索等。</p><p>  1.3 計算機輔助藥物分子設(shè)計的基本理論與方法&l

40、t;/p><p>  1.3.1 計算機藥物輔助設(shè)計的基本理論</p><p>  隨著生命科學(xué)和信息科學(xué)的快速發(fā)展,21世紀創(chuàng)新藥物研究以全新的面貌出現(xiàn)。以化學(xué)、生物學(xué)、數(shù)學(xué)和計算機科學(xué)為基礎(chǔ)的計算機輔助藥物分子設(shè)計[12](computer-aideddrug design, CADD)在藥物研發(fā)中起著重要的作用,是藥物研究的主要技術(shù)之一,已成為國際上十分活躍的科學(xué)研究領(lǐng)域。</p&

41、gt;<p>  計算機輔助藥物設(shè)計以計算機為工具,根據(jù)前人積累的有關(guān)生物活性物質(zhì)結(jié)構(gòu)與功能的資料,以及受體在生物體內(nèi)的作用靶點,采用各種理論計算方法和分子圖形模擬技術(shù),設(shè)計出具有特定藥效的藥物分子。計算機輔助藥物設(shè)計方法可以用于研究配體和受體復(fù)合物的構(gòu)型和立體化學(xué)特征、藥物與受體的結(jié)合模式和特異性、藥物分子的活性基團和藥效團模型等,為改進現(xiàn)有的生物活性物質(zhì)的結(jié)構(gòu)并設(shè)計出新的藥物分子提供理論指導(dǎo)和思路[13]。</p

42、><p>  1.3.2 常用的計算機輔助藥物設(shè)計方法</p><p>  計算機輔助藥物設(shè)計是基于對藥物和受體間相互作用的理解和研究。根據(jù)生物大分子(受體)是否已知把計算機輔助藥物設(shè)計方法分為兩類[14],一類是基于配體的藥物設(shè)計,另一類是基于受體結(jié)構(gòu)的藥物設(shè)計。</p><p>  基于配體的藥物設(shè)計方法主要是針對未知受體結(jié)構(gòu)的藥物分子的設(shè)計,主要包括定</p

43、><p>  量構(gòu)效關(guān)系方法[15]、藥效基團模型方法以及類藥性分析方法這三種方法?;谑荏w結(jié)構(gòu)的藥物設(shè)計是通過各種計算化學(xué)和分子圖形學(xué)的方法來研究受體與配體的結(jié)合模式和特征,探討影響配體與受體結(jié)合的關(guān)鍵分子間作用;結(jié)合系統(tǒng)能量和分項能量的分析計算以發(fā)現(xiàn)選擇性作用于靶點的配體分子?;谑荏w結(jié)構(gòu)的藥物設(shè)計包括活性位點分析法、數(shù)據(jù)庫搜尋法和全新藥物設(shè)計。</p><p>  1.4 定量構(gòu)效關(guān)系研

44、究</p><p>  1.4.1 定量構(gòu)效關(guān)系研究的基本理論</p><p>  狹義的構(gòu)效關(guān)系(structure activity relationships, SAR)是指藥物的結(jié)構(gòu)發(fā)生變化時生物活性的定性變化經(jīng)驗。定量構(gòu)效關(guān)系(quantitative strucher activity relationships, QSAR)是由SAR發(fā)展而來的,它采用數(shù)學(xué)模式來描述藥物的生物

45、活性與結(jié)構(gòu)間的定量依賴關(guān)系[16],是適應(yīng)合理設(shè)計生物活性分子的需要而發(fā)展起來的[17]。定量構(gòu)效關(guān)系[18-19]是指利用理論計算和統(tǒng)計分析工具來研究系列化合物結(jié)構(gòu)(包括二維分子結(jié)構(gòu)、三維分子結(jié)構(gòu)和電子結(jié)構(gòu))與其生物效應(yīng)(如藥物的活性、毒性、藥效學(xué)性質(zhì)、藥物代謝動力學(xué)參數(shù)和生物利用度等)之間的定量關(guān)系,即采用數(shù)字模型,借助理化參數(shù)或結(jié)構(gòu)參數(shù)來描述有機小分子化合物(藥物、抑制劑等)與有機大分子化合物(酶、輔酶或有機大分子)或組織之間(受

46、體、細胞、動物等)的相互作用關(guān)系。</p><p>  1.4.2 定量構(gòu)效關(guān)系研究的發(fā)展</p><p>  1868年,Crum.Brown和Fraser發(fā)表了QSAR方面的第一個方程巾=f(c),該方程表明[20],化合物的生理活性由可用化學(xué)結(jié)構(gòu)C的函數(shù)表示,但并未建立明確的函數(shù)模型。最早的可以實施的定量構(gòu)效關(guān)系方法是美國波蒙拿學(xué)院的Hansch在1962年提出的Hansch方程。其

47、最初的形式為方程(1-1),</p><p>  lgl/C=algP+bσ+cEs+constant (1-1)</p><p>  即活性與疏水參數(shù)lgP、電性參數(shù)σ和立體參數(shù)Es相關(guān)。隨后,Hansch和日本訪問學(xué)者藤田稔夫等人一同改進了Hansch方程的數(shù)學(xué)模型,引入了指示變量、拋物線模型和雙線性模型等修正,得到方程(1-2),使得方程的預(yù)

48、測能力有所提高[21]。</p><p>  lgl/C=a(lgP)2+blgP+cσ+dEs+constant (1-2)</p><p>  Free等人幾乎與Hansch方法發(fā)表的同時發(fā)表了Free.Wilson方法,其直接以分子結(jié)構(gòu)作為變量對生物的生理活性進行回歸分析。Hansch方法、Free.Wilson方法等方法均是將分子作為一個整體考慮其性

49、質(zhì),并不能反應(yīng)分子的三維結(jié)構(gòu)與生理活性之間的關(guān)系,因而被稱為二維定量構(gòu)效關(guān)系(2D QSAR)。</p><p>  20世紀80年代在QSAR研究中出現(xiàn)了考慮生物活性分子與受體結(jié)合的三維結(jié)構(gòu)性質(zhì)的研究方法,稱為三維定量構(gòu)效關(guān)系(3D-QSAR)。如在1979年Crippent[22]等提出距離幾何學(xué)的3D-QSAR、1980年Hopfinger[23-24]等提出分子形狀分析方法和1988年Cramer[25]

50、等提出了比較分子場方法(CoMFA)等。比較分子場方法一經(jīng)提出便席卷整個藥物設(shè)計領(lǐng)域,成為了應(yīng)用最廣泛的基于定量構(gòu)效關(guān)系的藥物設(shè)計方法;1990年出現(xiàn)了新的三維定量構(gòu)效關(guān)系方法,如在比較分子場方法基礎(chǔ)上改進的比較分子相似性方法(CoMSLA)以及在距離幾何學(xué)的3D-QSAR基礎(chǔ)上發(fā)展的虛擬受體方法等,這些方法都成功得到了一些3D-QSAR模型,為設(shè)計高活性生物分子提供了很多有益的提示。</p><p>  199

51、7年Hopfinger等提出了4D-QSAR的概念,此方法首次采用遺傳算法選擇分子動力學(xué)產(chǎn)生的構(gòu)象來產(chǎn)生最佳的構(gòu)效關(guān)系模型。用每個格點對用的原子占有率來作為偏最小二乘回歸的變量,根據(jù)原子的不同特征定義了七種不同種類的原子模型。4D-QSAR方法考慮了藥物分子的整個構(gòu)象空間,考察了多種原子疊合方式,因此在概念上比傳統(tǒng)的CoMFA方法有一定的進步。在QSAR研究過程中考慮影響生物活性的因素不斷增加, QSAR向著更高的維數(shù)發(fā)展,接著又有了5

52、D-QSAR、6D-QSAR概念的提出,它們各有特色,但還沒被普遍承認,有待進一步的研究和考證[26]。</p><p>  1.4.3 定量構(gòu)效關(guān)系研究的意義</p><p>  化學(xué)及其相關(guān)學(xué)科的發(fā)展至今已呈現(xiàn)出從描述性向推理性、從宏觀狀態(tài)研究到微觀結(jié)構(gòu)理論發(fā)展的趨勢。人們在長期實踐過程中認識到,分子結(jié)構(gòu)與其性質(zhì)密切相關(guān)。分子結(jié)構(gòu)一經(jīng)確定,其性質(zhì)也隨之而定。分子的性質(zhì)包括內(nèi)在性質(zhì)(如電

53、荷分布)、化學(xué)性質(zhì)(如pKa)和生物性質(zhì)(如活性)等各種性質(zhì)。結(jié)構(gòu)-性質(zhì)相關(guān)(Structure-property relationship, SPR )主要是研究它們之間的規(guī)律。其中研究分子結(jié)構(gòu)特征與相應(yīng)生物活性之間關(guān)系,即所謂構(gòu)效關(guān)系(Structure-activity relationship, SAR),定量構(gòu)效關(guān)系(Quantitative Structure Activity Relationship, QSAR) 被大量

54、地應(yīng)用于藥物科學(xué)研究,其數(shù)學(xué)模型對于有機化學(xué)品的藥物活性評價與預(yù)測具有廣闊的應(yīng)用前景。由于該方法具有簡單、方便、使用參數(shù)不依賴于實驗等優(yōu)點,從而被廣泛應(yīng)用于預(yù)測抗結(jié)核病藥物的各種藥物活性的研究中[18-21]。定量構(gòu)效關(guān)系(Quantitative structure-activity relationship, QSAR)由SAR發(fā)展而來,其是采</p><p>  1.4.4 定量構(gòu)效關(guān)系的研究現(xiàn)狀</

55、p><p>  目前,有關(guān)定量構(gòu)效關(guān)系方面的研究呈現(xiàn)出以下幾個特點[28-30]:</p><p>  1) 綜合性:主要研究化合物分子結(jié)構(gòu)與物化性質(zhì)或生物活性之間的定量函數(shù)關(guān)系,覆蓋了化學(xué)、物理學(xué)、生命科學(xué)等學(xué)科的一個交叉學(xué)科領(lǐng)域。同時定量構(gòu)效關(guān)系研究發(fā)展至今,越來越多地借助于數(shù)理統(tǒng)計方法和計算機技術(shù)的最新發(fā)展,所以要求研究者必須熟悉化學(xué)、物理學(xué)、生物學(xué)、數(shù)理統(tǒng)計和計算機等相關(guān)知識。<

56、/p><p>  2) 理論性:早期的QSAR研究往往比較注重定量構(gòu)效關(guān)系模型的預(yù)測功能,即實用性;而最近的定量構(gòu)效關(guān)系研究則更注意定量模型的因果關(guān)系,即理論性。人們總是期望一個成功的數(shù)學(xué)模型,能從本質(zhì)上揭示和解釋影響物質(zhì)某種性質(zhì)的本質(zhì)因素,揭示和描述生物活性的作用機制,從而達到提高有用生物活性,控制有害生物毒性的目的。</p><p>  3) 智能化:化合物的物化性質(zhì)和生物活性受到諸多因素

57、的影響,化合物的結(jié)構(gòu)因素也是多種多樣的,包括電子結(jié)構(gòu)、立體結(jié)構(gòu)和理化參數(shù)等。其中某些因素對特定的性質(zhì)影響較大,而另一些因素則影響較小,其間的關(guān)系復(fù)雜多樣。當化合物結(jié)構(gòu)范圍較寬時,要在化合物結(jié)構(gòu)與某種性質(zhì)之間建立滿意的數(shù)學(xué)模型必須借助于多變量分析方法和計算機的自適應(yīng)優(yōu)化建模功能。因此主成分分析、偏最小二乘、判別分析、聚類分析、模擬退火、人工神經(jīng)網(wǎng)絡(luò)、遺傳算法等方法被越來越多地應(yīng)用于定量構(gòu)效關(guān)系研究,并輔以計算機的智能化技術(shù),促使定量構(gòu)效關(guān)

58、系研究向智能化方向發(fā)展。</p><p>  4) 程序化:一個定量構(gòu)效關(guān)系模型的建立往往是建立在對大量化合物的生物活性數(shù)據(jù)及結(jié)構(gòu)參數(shù)分析基礎(chǔ)之上,同時還需從諸多結(jié)構(gòu)參數(shù)中篩選出對化合物特定性質(zhì)具有顯著影響的變量。從參數(shù)的計算到相關(guān)分析,工作十分繁雜而且容易出錯。近期發(fā)展起來的CASE(Computer automated structure evaluation)系統(tǒng)使得化合物參數(shù)的計算,重要變量的篩選,乃至模

59、式分析和模型建立完全程序化。這樣的專家系統(tǒng),不僅大大方便了模型的建立過程,同時也為那些不熟悉化學(xué)、物理或生物學(xué)知識卻需要使用構(gòu)效關(guān)系模型的科研工作者提供了極大的方便。</p><p><b>  5) 實用化:</b></p><p>  (a)為化學(xué)品危險性評價提供一種簡便實用的途徑。通過實驗的方法對化合物進行全面危險性評價不僅需要大量的資金投入,而且歷時較長。通過

60、QSAR研究可為化學(xué)品的暴露水平和生物效應(yīng)作出預(yù)測和評價,可大大節(jié)省人力物力的投入。</p><p>  (b)指導(dǎo)合成高效低毒的新化合物。通過定量構(gòu)效關(guān)系研究可發(fā)現(xiàn)并確定對化合物活性起關(guān)鍵作用的結(jié)構(gòu)因素,從而指導(dǎo)高效低毒化合物的目標分子設(shè)計。</p><p>  (c)建立化學(xué)品性質(zhì)及毒性數(shù)據(jù)庫。建立化學(xué)品性質(zhì)及毒性的定量構(gòu)效關(guān)系模型有助于從已經(jīng)測定的數(shù)據(jù)中最大限度地獲取有用信息。此類模

61、型的建立不僅使得數(shù)據(jù)庫具有預(yù)測功能,而且可以發(fā)現(xiàn)數(shù)據(jù)中偏離模型“可疑數(shù)據(jù)”。而這些“可疑數(shù)據(jù)”或“異常樣本”的發(fā)現(xiàn)往往又可以幫助和啟示人們尋找一些更為有意義的規(guī)律。</p><p><b>  2 原理與方法</b></p><p>  2.1 三維全息原子場作用矢量(3D-HoVAIF)的基本概念及相關(guān)計算</p><p>  在分子電性距離

62、矢量[31-33]的基礎(chǔ)上,本實驗室提出一種有效的3D分子結(jié)構(gòu)描述子:三維全息原子場作用矢量(3D-HoVAIF)。該法從分子立體結(jié)構(gòu)的兩個空間不變量——原子相對距離和原子自身性質(zhì)出發(fā),基于三種常見的與生物活性直接相關(guān)的原子間非鍵作用方式(靜電、立體和疏水作用),在不借助任何實驗參數(shù)及毋需樣本構(gòu)象重疊的前提下得到了用于表征分子結(jié)構(gòu)特征的多維矢量描述子。</p><p>  有機分子中常見原子有氫、碳、氮、磷、氧、

63、硫、氟、氯、溴、碘,它們分別屬于元素周期表的5個主族(IA、IVA、VA、VIA、VIIA),按其所處元素周期表劃分為5大類,為了更好地表達分子細微結(jié)構(gòu)特征,并考慮到同一族原子處于不同雜化狀態(tài)時化學(xué)性質(zhì)也有較大差異,繼而在上述分類的基礎(chǔ)上再進一步把不同主族中的原子按其雜化狀態(tài)細分為10類,這樣一個分子內(nèi)部不同類別原子之間的相互作用情況就有55種(表2-1)。</p><p>  表2-1 3D-HoVAIF中的

64、10類原子及它們的55種相互作用情況</p><p>  本文3D-HoVAIF采用靜電、立體和疏水三種勢能來表達不同的作用形式,這樣對于一個有機化合物分子將有3×55=165對原子作用項來表征分子結(jié)構(gòu)信息。雖然3D-HoVAIF中的原子相互作用方式不是配基與靶點的直接作用,但是在大多數(shù)受體未知的情況下3D-HoVAIF描述子中包含了豐富的藥物分子勢能分布信息。</p><p>

65、<b>  1)靜電作用場</b></p><p>  靜電作用(electrostatic interaction)是一類重要的非鍵形式,經(jīng)典的點電荷作用方式可用庫侖(Coulomb)定理(式2-1)來表述。</p><p>  (1≤m≤10, m≤n≤10) (2-1)</p><p>  式(1)中r

66、ij是原子間Euclid距離,單位為nm;e為單位電荷電量1.6021892×10-19 C;ε0為真空中的介電常數(shù)8.85418782×10-12 C2/J·m;Z為原子凈電荷數(shù),以電子為單位;m和n為原子所屬種類。通過該式計算分子中所有原子間的靜電作用勢,并按所屬類型將其分別計入55個靜電作用項中。</p><p><b>  2)立體作用場</b><

67、/p><p>  立體作用(steric interaction)是空間原子間存在的非偶極-偶極或偶極誘導(dǎo)作用,這里采用Lennard-Jones方程來描述這種作用方式(式2-2)。</p><p>  式(2)中εij為原子對勢能阱深,取文獻值[33-34](表2-2);D為經(jīng)驗推導(dǎo)的原子間作用能校正常數(shù),取0.01;Rij*=(Ch·Rii*+ Ch·Rjj*)/2,為

68、校正后的原子對van der Waals半徑,校正因子Ch當sp3雜化時取1.00, sp2雜化取0.95, sp雜化取0.90。</p><p>  表2-2 Lennard-Jones中原子勢阱參數(shù)</p><p><b>  3)疏水作用場</b></p><p>  疏水作用(hydrophobic interaction)是影響藥物分

69、子與生物體結(jié)合的重要因素,使用Kellogg等提出的hint方法[24-27]來定義計算兩原子間疏水作用表達式(式2-3)。</p><p>  (1≤m≤10, m≤n≤10) (2-3)</p><p>  式(3)中S為原子溶劑可及面積(Solvent Accessible Surface Area of Atom, SASA),是以水分子(范德瓦爾斯半徑為

70、0.14 nm)為探針在原子表面滾動其球心形成的表面面積[28](表2-3);α為原子疏水性常數(shù),取文獻值;T是作用形式的二值判別函數(shù),以表明不同類型原子疏水作用的熵效應(yīng)變化方向。</p><p>  表2-3 有機分子中常見原子的范德瓦耳斯半徑和溶劑可及面積</p><p>  表2-4 原子疏水/溶解常數(shù)</p><p>  表2-5 Hint用于計算原子疏水作

71、用公式中的二值判別函數(shù)T值</p><p>  2.2 基于虛擬蛋白質(zhì)受體原子探針的分子表面隨機采樣分析(RaSMS)的基本概念及相關(guān)計算</p><p>  2.2.1 蛋白質(zhì)受體原子探針</p><p>  由于大多數(shù)藥物直接作用靶標是具有一定生物活性功能的肽和蛋白質(zhì)分子,因此RaSMS法使用20種標準天然氨基酸中的各類原子作為探針??紤]到具有不同雜化狀態(tài)的原子

72、往往因所處基團和區(qū)域不同而使其對活性貢獻表現(xiàn)出一定的差異,進而以此得到8個探針原子(表2-1)。為了反映這些探針的性質(zhì),我們分別給其賦予了平均電荷指數(shù)、范德瓦耳斯指數(shù)和平均疏水指數(shù)的概念。</p><p>  平均電荷指數(shù)(Mean Charge Index, MCI):探針原子電性特征取其出現(xiàn)于氨基酸中的平均電荷數(shù)(以電子為單位)。具體計算如下:首先使用Chemoffice 8.0自帶數(shù)據(jù)庫生成20個天然氨基酸

73、的初始分子立體結(jié)構(gòu);并利用分子模擬軟件HyperChem 7.5進行分子力學(xué)(采用MM+力場)構(gòu)象優(yōu)化;其結(jié)果進一步應(yīng)用Gaussian 98W量子化學(xué)計算軟件在密度泛函(Density Function Theory, DFT)水平基于廣義梯度近似法最終優(yōu)化得到分子三維結(jié)構(gòu),并采用Mulliken布居分析法[30]以單點(single-point)形式計算出原子的凈電荷數(shù)量(由于采用的基函數(shù)不正交,DFT對Mulliken電荷進行了修

74、正);利用C語言自編程序Mean.EXE計算每種探針原子在氨基酸中出現(xiàn)的平均電荷數(shù)作為其MCI值。其中,DFT所采用的泛函類型為B3LYP,在進行幾何結(jié)構(gòu)優(yōu)化時選用的分子軌道基函數(shù)為雙重分裂基組并在每個重原子上加入了d軌道極化函數(shù),而單點計算所采用的軌道基組是在幾何優(yōu)化基組的基礎(chǔ)上再向氫原子加入p軌道極化函數(shù)得到。</p><p>  范德瓦耳斯指數(shù)(van der Waals Index, VWI):通常文獻給

75、出的是孤立原子van der Waals半徑,但實際原子由于其所處分子的化學(xué)微環(huán)境和自身雜化狀態(tài)不同該半徑有所變化,因此本文對其進行了調(diào)整,即使用經(jīng)校正后的原子van der Waals半徑作為探針原子的范德瓦耳斯指數(shù)(單位為?),VWI=Ch×RVDW*。其校正因子Ch參見文獻,當sp3雜化時取1.00, sp2雜化取0.95, sp雜化取0.90。另外,各類原子的標準van der Waals半徑取自Bondi等人的報告(

76、附表1)。</p><p>  平均疏水指數(shù)(Mean Hydrophobic Index, MHI):類似于MCI, MHI取每類探針的疏水性在天然氨基酸中出現(xiàn)的平均值(單位為kJ/?2)。</p><p>  表2-1 8個探針原子在20種天然氨基酸中出現(xiàn)的頻數(shù)及其MCI, VWI和MHI取值</p><p>  2.2.2 虛擬受體可及表面</p>

77、<p>  本文提出了虛擬受體可及表面(Pseudo-Receptor Accessible Surface, PRAS)的概念。當作為藥物作用靶點的生物分子(蛋白質(zhì)、核酸、糖類等)中所包含的原子可以抵達的該藥物分子表面稱為分子虛擬受體可及表面(Pseudo-Receptor Accessible Surface of Molecule, PRASM),如果以上述劃分蛋白質(zhì)8類探針原子中的氫作為受體探針,其定義如下:利用單

78、個氫原子球體(RVDW=1.2?)在藥物分子van der Waals表面滾動其球心所經(jīng)歷的曲面則稱為虛擬受體氫原子可及表面(H-PRASM)。同理可以計算其余7種虛擬受體探針原子可及表面(圖2-1(a))。作為一個抽象概念,依照上述PRASM的計算方法可以定義孤立原子的原子虛擬受體可及表面(Pseudo-Receptor Accessible Surface of Atom, PRASA),顯然該表面是一個球面(其半徑為該原子與探針半

79、徑之和)(圖2-1(b))??梢钥吹剿幬锓肿又忻總€原子的PRASA可能有一部分參與形成該分子的PRASM。</p><p>  圖2-1 (a)分子虛擬受體可及表面(PRASM); (b) 原子虛擬受體可及表面(PRASA)</p><p>  2.2.3 藥物分子中常見原子分類</p><p>  有機化合物中常見的原子包括氫、碳、氮、磷、氧、硫、氟、

80、氯、溴、碘,它們分別屬于元素周期表的IA、IVA、VA、VIA、VIIA共計5個主族?;凇熬哂邢嗤瘜W(xué)性質(zhì)的原子應(yīng)屬于同一類”的觀點,我們很自然的按照這些原子所處元素周期表的族將其劃分為5大類。為了更好的表現(xiàn)分子細微結(jié)構(gòu)特征,并考慮到同一族原子處于不同雜化狀態(tài)時化學(xué)性質(zhì)也有較大差異,繼而在上述分類的基礎(chǔ)上再進一步把不同族中的原子按其雜化狀態(tài)細分為10類(表2-2)。</p><p>  表2-2. RaSMS中

81、按周期表的族和原子雜化類型劃分的10類原子</p><p>  2.2.4 探針原子與藥物配體的作用模式</p><p>  經(jīng)典藥學(xué)理論認為藥物在抵達受體并與之發(fā)生作用絕大多數(shù)都是暫時的、可逆的非鍵效應(yīng),其表現(xiàn)為靜電、立體、疏水、氫鍵、電荷轉(zhuǎn)移等多種因素。本文考慮到靜電、立體、疏水效果幾乎包含了大部分這類信息,故在RaSMS中主要計算這3種作用類型。對于氫鍵、電荷轉(zhuǎn)移等可以看成是靜電和立

82、體效應(yīng)的特殊表現(xiàn)形式。</p><p>  靜電作用(electrostatic interaction)是一類重要的非鍵效應(yīng),經(jīng)典的點電荷作用方式服從Coulomb定理(2-3)。其中rij是探針到配體原子間的Euclid距離,單位為?;e為單位電荷電量1.6021892×10-19 C;ε0為真空中的介電常數(shù)8.85418782×10-12 C2/J·m;Z為配體原子凈電荷數(shù),以

83、電子為單位;p和l分別為探針和配體原子所屬類型。</p><p>  (1≤p≤8, 1≤l≤10) (2-3)</p><p>  立體作用(steric interaction)是空間原子間存在的非偶極-偶極或偶極誘導(dǎo)作用,這里采用Lennard-Jones方程來描述這種作用方式(2-4)。該式中εij=(εii·εjj)1/2為探針-受體原子勢能阱深;D為經(jīng)驗

84、推導(dǎo)的原子間作用能修正常數(shù),相當于單位變換系數(shù),取0.01[33];Rij*=(VWIi+Ch·Rj*)/2,為經(jīng)過校正后的探針-受體原子間van der Waals碰撞半徑,校正因子Ch同2.2.1節(jié)所述。</p><p>  (1≤p≤8, 1≤l≤10) (2-4)</p><p>  疏水作用(hydrophobic interaction)是影響藥物分子與

85、生物體結(jié)合的重要因素,由于其往往表現(xiàn)于體系熵的改變,因此很難用一個統(tǒng)一的公式來描述。對于有關(guān)疏水作用的研究已有眾多文獻報道,考慮到RaSMS要求深入到配基分子內(nèi)部原子與其表面受體探針相互作用,我們使用Kellogg等人提出的hint方法來表達該類勢能形式。在hint中定義了一個簡單的計算兩個原子之間的疏水相互作用表達式(2-5),該式中S為原子溶劑可及面積(Solvent Accessible Surface Area of Atom,

86、 SASA),是水分子(van der Waals半徑為1.4?)在原子表面滾動其球心形成的表面面積;a為原子疏水性常數(shù),這里同樣使用上文所提到的ASP作為其表達值;T是作用形式的二值判別函數(shù),以表明不同類型原子疏水作用的熵效應(yīng)變化方向。</p><p>  (1≤p≤8, 1≤l≤10) (2-5)</p><p>  2.2.5 RaSMS實現(xiàn)過程</p&g

87、t;<p>  使用Chemoffice 8.0分子圖形構(gòu)建軟件包自動生成初始藥物分子立體結(jié)構(gòu);同時應(yīng)用MOPAC 6.0半經(jīng)驗量子化學(xué)計算軟件在AM1(Austin Model 1)水平上采用共扼梯度法完成幾何優(yōu)化,并在最終分子結(jié)構(gòu)上進行單點計算以求得每個原子所帶電荷的Mulliken布居數(shù);繼而利用C語言自編程序Sampling-tool.EXE進行RaSMS分析:當以氫原子為探針時,首先在藥物分子虛擬受體氫原子可及表

88、面(H-PRASM)上進行隨機取點作為該探針的探點,每一次采樣都計算該點探針與藥物分子中10類原子的相互作用情況,而每種作用又分為靜電、立體和疏水3種效應(yīng),這樣可以得到30個作用項,它包含了分子表面該點的勢場分布狀況??梢钥吹剑?jīng)過大規(guī)模重復(fù)上述隨機采樣,探點將幾乎完全均勻的覆蓋分子周圍,從而得到整個表面的場能分布信息。完成所有采樣之后將多次探測得到的30項作用每項對應(yīng)加和,并取其平均值作為該分子表面勢場分布密度。其中第一項表示H-PR

89、ASM上藥物分子中第1類原子(氫原子)與探針平均作用情況,第二項表示第2類原子(sp3雜化的碳原子)與探針平均作用情況,以此類推。這樣通過使用8個探針</p><p>  圖2-2 RaSMS法對于每一個藥物分子得到的240個作用分量示意圖</p><p>  2.3 多元線性回歸原理</p><p>  多元線性回歸(Multiple linear regress

90、ion, MLR)是一種經(jīng)典的建模方法,它對自變量和因變量加以線性擬合以得到最小二乘(Least Square, LS)意義下的最佳結(jié)果。在研究互相獨立的自變量與因變量之間的線性關(guān)系時,采用多元線性回歸分析通??梢垣@得滿意的結(jié)果。假設(shè)自變量x1,x2,…, xj與因變量 y皆成線性關(guān)系,則一個j元線性回歸的數(shù)學(xué)模型可表達為:</p><p>  ?=bo+b1x1+b2x2+bjxj

91、 (2-6)</p><p>  方程式(2-4)中 b0 為常數(shù)項,自變量xj前的系數(shù)bj,稱因變量y對自變量xj的偏回歸系數(shù),它表示在其它自變量為常數(shù)時,該自變量每變化1個單位而使因變量y平均改變的數(shù)值。在多元線性回歸中,用復(fù)相關(guān)系數(shù) R 表示回歸方程對原有數(shù)據(jù)擬合程度的好壞,R的定義為:</p><p><b> ?。?-7) </b>

92、;</p><p>  方程式(2-5)中,yi為觀測值,?i為模型的計算值,?為n個樣本觀測值的平均值。</p><p>  對于建立的MLR方程,首先要對其進行多元線性回歸關(guān)系假設(shè)檢驗,可通過F檢驗實現(xiàn)。需要注意的是,即使多元線性關(guān)系顯著也不排除存在與因變量無線性關(guān)系自變量的可能性,因此必須還要對各個偏回歸系數(shù)逐個進行假設(shè)檢驗。一般來說,只有當多元回歸方程自變量的偏回歸系數(shù)均顯著時,多

93、元回歸檢驗的 F 值才有確定的意義。為了使回歸方程和引入自變量的偏相關(guān)系數(shù)顯著,需要對自變量進行評估,變量的評估可由四部分組成:(1)變量的零值測試;(2)變量的偏差測試;(3)兩兩變量間相關(guān)性的測試;(4)變量的多重共線性測試。在使用MLR建模時常用的變量篩選方法有以下幾種:</p><p>  (1) 向后消除(backward variable elimination):從包含全部自變量的方程中,根據(jù)判據(jù),

94、每次剔除一個對因變量影響不顯著的變量,直到無法剔除為止。</p><p>  (2) 向前選擇(forward variable selection):從一個自變量開始,每次引入一個對因變量影響顯著的變量,直到無法引入為止。</p><p>  (3) 逐步回歸篩選(stepwise multiple regression, SMR):①每次引入一個對因變量影響顯著的變量,直到無法引入時轉(zhuǎn)

95、到②;②每次剔除一個對因變量影響不顯著的變量,直到無法剔除時轉(zhuǎn)到①。當無法引入也無法剔除自變量時停止篩選,使得最后的回歸方程中只保留重要的自變量。</p><p>  逐步回歸篩選是一種最為常用的變量篩選方法,它是向前選擇和向后消除的一種結(jié)合。在向前選擇中,一旦某個變量被引入方程,它就永遠保留在模型中。然而,隨著其它變量的引入,由于變量間的相關(guān)關(guān)系,某些先進入模型的變量就可能變得不再顯著。而對于向后消除法,一旦某

96、個變量被剔除后,就永遠被排斥在模型之外。但是隨著其它變量被剔除,它對因變量的解釋作用也可能變得顯著起來。所以逐步回歸是一種“有進有出”的算法,它比“進后不出”或是“出后不進”的算法顯然更加完備,因此它是一種尋找最優(yōu)子空間的有效方法。</p><p>  2.4 偏最小二乘法原理</p><p>  偏最小二乘法是一種新型的多元統(tǒng)計數(shù)據(jù)分析方法,它1983年由伍德(S.Wold)和阿巴諾(C

97、.Albano)等人首次提出。近幾十年來,它在理論、方法和應(yīng)用方面都得到了迅速的發(fā)展。</p><p>  長期以來,模型式的方法和認識性的方法之間的界限分得十分清楚。而偏最小二乘法則把它們有機的結(jié)合起來了,在一個算法下,可以同時實現(xiàn)回歸建模(多元線性回歸)、數(shù)據(jù)結(jié)構(gòu)簡化(主成分分析)以及兩組變量之間的相關(guān)性分析(典型相關(guān)分析)。這是多元統(tǒng)計數(shù)據(jù)分析中的一個飛躍。偏最小二乘法在統(tǒng)計應(yīng)用中的重要性體現(xiàn)在以下幾個方面

98、:偏最小二乘法是一種多因變量對多自變量的回歸建模方法。偏最小二乘法可以較好的解決許多以往用普通多元回歸無法解決的問題。偏最小二乘法之所以被稱為第二代回歸方法,還由于它可以實現(xiàn)多種數(shù)據(jù)分析方法的綜合應(yīng)用。主成分回歸的主要目的是要提取隱藏在矩陣X中的相關(guān)信息,然后用于預(yù)測變量Y的值。這種做法可以保證讓我們只使用那些獨立變量,噪音將被消除,從而達到改善預(yù)測模型質(zhì)量的目的。但是,主成分回歸仍然有一定的缺陷,當一些有用變量的相關(guān)性很小時,我們在選

99、取主成分時就很容易把它們漏掉,使得最終的預(yù)測模型可靠性下降,如果我們對每一個成分進行挑選,那樣又太困難了。偏最小二乘回歸可以解決這個問題。它采用對變量X和Y都進行分解的方法,從變量X和Y中同時提取成分(通常稱為因子),再將因子按照它們之間的相關(guān)性從大到</p><p>  偏最小二乘回歸的主要目的是要建立一個線性模型:Y=XB+E,其中Y是具有m個變量、n個樣本點的響應(yīng)矩陣,X是具有p個變量、n個樣本點的預(yù)測矩陣

100、,B是回歸系數(shù)矩陣,E為噪音校正模型,與Y具有相同的維數(shù)。在通常情況下,變量X和Y被標準化后再用于計算,即減去它們的平均值并除以標準偏差。偏最小二乘回歸和主成分回歸一樣,都采用得分因子作為原始預(yù)測變量線性組合的依據(jù),所以用于建立預(yù)測模型的得分因子之間必須線性無關(guān)。例如:假如我們現(xiàn)在有一組響應(yīng)變量Y(矩陣形式)和大量的預(yù)測變量X(矩陣形式),其中有些變量嚴重線性相關(guān),我們使用提取因子的方法從這組數(shù)據(jù)中提取因子,用于計算得分因子矩陣:T=X

101、W,最后再求出合適的權(quán)重矩陣W,并建立線性回歸模型:Y=TQ+E,其中Q是矩陣T的回歸系數(shù)矩陣,E為誤差矩陣。一旦Q計算出來后,前面的方程就等價于Y=XB+E,其中B=WQ,它可直接作為預(yù)測回歸模型。偏最小二乘回歸與主成分回歸的不同之處在于得分因子的提取方法不同,簡而言之,主成分回歸產(chǎn)生的權(quán)重矩陣W反映的是預(yù)測變量X之間的協(xié)方差,偏最小二乘回歸產(chǎn)生的權(quán)重矩陣W反映的是預(yù)測變量X與響應(yīng)變量Y之間的協(xié)方差。在建模當中,</p>

102、<p>  3 模型的建立與檢驗</p><p><b>  3.1 數(shù)據(jù)采集</b></p><p>  本文研究的25個查耳酮類抗結(jié)核病藥物的分子結(jié)構(gòu)和最小抑菌濃度值的pMIC(表3-1)取自文獻[37]。</p><p>  表3-1 查耳酮類抗結(jié)核病藥物的結(jié)構(gòu)及其pMIC </p><p>  使用C

103、hemdraw畫出這25個抗結(jié)核病藥物分子式,使用Chem3D構(gòu)建25個分子的立體結(jié)構(gòu),用Chem3D中自帶的MOPAC半經(jīng)驗量子化學(xué)軟件在AM1水平上最終優(yōu)化得到分子結(jié)構(gòu)(截斷值0.0001KJ/mol),并采用Mulliken布居分析法以單點(single-point)形式計算出原子的凈電荷數(shù)量,將分子中每個原子的空間位置及電荷分別以笛卡兒坐標和凈電子數(shù)目的形式輸入實驗室自編的C語言應(yīng)用程序3D-HoVAIF.EXE和RaSMS加以

104、處理,得到分子165個3D-HoVAIF描述子和240個RaSMS描述子。</p><p><b>  3.2 變量篩選</b></p><p>  所建模型的線性與所選變量的多少息息相關(guān)。一個較好的預(yù)測模型通常要求相關(guān)系數(shù)大,參數(shù)盡可能少。變量過少時,一個變量發(fā)生變動時將會顯著影響所研究的性質(zhì)。變量越多,對模型的描述就越完整。但在QSAR研究中,一般要求盡可能降低描

105、述變量數(shù),以便可靠地從QSAR模型中解讀出研究對象的內(nèi)在主要聯(lián)系[29-30]。因此,對上述研究對象的物化參數(shù)進行變量的篩選就顯得尤為重要。作者采用SPSS 16.0 統(tǒng)計學(xué)軟件分別對165個3D-HoVAIF描述子和240個RaSMS描述子進行逐步線性回歸(step-wise multiple regression, SMR),SMR按Fisher顯著性檢驗依次引入變量,并采取有進有出的原則,最終分別篩選出15,10個顯著性矢量。&l

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論