版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、<p><b> 摘要</b></p><p> 隨著 X 射線晶體衍射以及多維核磁共振等實驗技術的進步,越來越多的疾病 相關生物大分子的結構得以測定?;诮Y構的藥物設計方法已成為藥物設計領域 中的常用方法?;诮Y構的藥物設計主要分為虛擬篩選和全新設計兩個方向。雖 然從理論上說,全新設計方法不依賴于化合物庫,更容易設計出具有化學多樣性 和高生物活性的分子,但與近二十年來虛擬篩
2、選方法所獲得的巨大成功相比,全 新設計方向的進展乏善可陳。主要原因在于全新藥物設計方法給出的分子難于合 成,而且即使可以合成,合成的時間和經濟代價也往往比虛擬篩選策略僅需要購 買分子要高,使得無法進行大規(guī)模的實驗測試。這兩個原因給全新藥物設計方法 進入實用階段帶來很大困難。</p><p> 本論文構建了一個完整的全新藥物設計系統,該系統可以完成全新藥物設計 的全過程,包括:蛋白質結合位點探測、可藥性分析、全新
3、分子設計、結合能預 測、后篩選以及化合物合成分析,同時解決了全新藥物設計領域中設計化合物可 合成性差和成功率低的兩個主要困難。該系統在親環(huán)素 A 抑制劑研究中成功地 設計得到了全新藥物設計方法迄今為止有報道的活性最高的分子,證實了該系統 的有效性和實用性。隨著全新藥物設計方法的發(fā)展,將會逐漸成為基于結構藥物 設計的首選方法。</p><p> 論文工作主要分以下六個部分:</p><p>
4、; 1、開發(fā)了一個蛋白質配體結合位點探測程序 Cavity。提出了一種新的 蛋白質配結合位點幾何探測法“球擦除法”進行初步探測,在此基礎上利用一種新 的基于格點的算法,即“收縮、擴張”算法來更為精確的定義結合位點邊界。根據 配體結合部位的幾何、物理化學屬性,定義了有較明確物理意義的“CavityScore”, 用以衡量配體結合位點結合能力的強弱,并得到一條線性方程,可以用于預測配 體與結合位點作用可能達到的最大結合能力。對排名前三的
5、結果預測準確率分別 為 86%,92%,97%,在精度和準確率上都優(yōu)于現有的探測程序。</p><p> 2、在本實驗室早年開發(fā)的全新藥物設計程序 LigBuilderV1.2 基礎上, 發(fā)展了 LigBuilderV2.0 版本。采用了三種新的全新藥物設計策略,即探索模式,</p><p> 集合生長模式和集合連接模式。探索模式是 LigBuilderV2.0 的核心算法,通過自
6、動提取生長起始種子并進化種子庫,然后以之為基礎進行多輪設計,完全避免了 以往的全新設計方法中,依賴于人工給定起始種子而使得設計分子的新穎性和多 樣性受到限制的問題,可以說是嚴格意義上的從頭設計方法。集合生長模式可以 用于優(yōu)化先導化合物,集合連接模式能夠將多個小片段連接形成新的分子。所發(fā) 展的集合連接模式具有遠超以往分子片段連接算法的計算效率,使得多片段的連 接也變得可行。結合 LigBuilderV2.0 中的片段提取功能,這兩種模式都
7、可以進行 仿制設計,特別是集合連接模式,能夠有效的設計與已知抑制劑有類似相互作用 模式,同時具有新骨架結構的分子,因此它也是一種新穎的藥物仿制策略。</p><p> 3、在本實驗室已發(fā)展的蛋白質-配體打分函數 Score2.0 和 Score3.0 基礎 上,發(fā)展了新一代的蛋白質-配體經驗打分函數 Score4.0。氫鍵是蛋白受體與配 體特異性相互作用最重要的因素之一,氫鍵的本質是質子與孤對電子間的靜電作
8、用,但當前打分函數中對氫鍵的計算往往忽略了孤對電子的方向問題。Score4 不但對氫原子進行精細的重新裝配,而且也考慮到孤對電子的方向,同時還能處 理氫鍵簇并構建水橋,能夠對氫鍵進行較為精確的計算。此外,根據分子結合的 鎖鑰模型,如果存在良好的蛋白-配體相互作用,其間也應該具備較好的幾何互 補性。為此本文定義了結構匹配分,通過計算配體分子在結合位點附近的可運動 空間大小,衡量兩者間的幾何互補性,并將這個參數加入到打分函數的計算中。 在以
9、 210 個蛋白為測試集的計算中,Score4 的預測相關系數 R 為 0.694,標準差 為 1.61,優(yōu)于現有的打分方法。</p><p> 4、在 LigBuilderV2.0 中發(fā)展了一個內置的同步式可合成性分析模塊。 設計分子的可合成性是制約全新藥物設計方法的關鍵瓶頸之一,全新藥物設計方 法產生的分子往往較為復雜而難于合成,無法進行下一步的實驗,而使設計結果 變得毫無意義。因此本文發(fā)展了基于數據庫搜
10、索和特征反應結構匹配的逆向合成 分析方法,同時構建了一個可擴充的有機合成反應數據庫以及反應原料數據庫。 為了適應全新藥物設計方法高通量的特性,本文運用了可進化的哈希鏈表等方法 加快計算速度,第一次在全新藥物設計算法中實現了同步的合成路徑分析。</p><p> 5、在 LigBuilderV2.0 中發(fā)展了后篩選模塊對所設計的分子進行后篩選。</p><p> 對于全新藥物設計方法來
11、說,由于合成的高代價,對于挑選分子的成功率有非常 高的要求。后篩選模塊能夠將設計結果中可靠性較低的結果剔除掉,再對分子進 行綜合排序,從巨量的設計結果中挑選出少量綜合屬性最佳的分子生成設計報告, 供使用者進行人工挑選。本文發(fā)展的后篩選模塊主要由幾個過濾模型組成:(1) 鎖鑰模型;(2)穩(wěn)定性模型(剩余自由度模型);(3)結合勢能面形貌模型。為 此分別定義了結構匹配分,分子穩(wěn)定性,平均離散性以及最大離散性等參數,對 模型進行描述。符合這些
12、模型的分子在使用靜態(tài)的打分函數計算時,能夠使與結 合和解離動力學相關的因素對于打分函數精度的影響減小。同時,后篩選模塊大 幅度減少了最終設計的分子數,因此可以引入更為精細的自由能計算方法對設計 結果進行最終的排序。</p><p> 6、 使用本論文發(fā)展的 LigBuilderV2.0 對親環(huán)素 A 進行了全新抑制劑設 計。親環(huán)素 A 是親環(huán)素家族的重要成員,在許多生物過程中有著非常重要的作 用。目前針對親環(huán)素
13、 A 的小分子抑制劑結構多樣性低,活性也較低。本文中使 用 LigBuilderV2.0 設計出一系列具有酰脲結構的化合物,最終經過篩選得到 98 個結構,而其中 38 個結構具有一致的骨架。合作者從中挑選了一個化合物進行 合成和測活,該化合物的 IC50 達到 31.6nM ,高于上市藥物環(huán)孢菌素 A</p><p> ?。↖C50=40.7nM)。到目前為止,這也是已報道的使用全新藥物設計方法設計得到 的活
14、性最高的化合物。而且經過合作者進一步的化學修飾,IC50 提高到了 1.52nM。 本文通過計算設計,僅合成一個分子就得到了 10nM 級別的抑制劑,標志著全新 藥物設計方法進入了實用化的新階段。</p><p> 關鍵詞:結合位點探測;打分函數;全新設計;后篩選;可合成性分析;</p><p><b> Abstract</b></p><p
15、> With the technological advances of X-ray crystallography and multidimensional NMR, many structures of disease-related biological macromolecules have been solved. Therefore, structural based drug design methods has
16、become a common practice in drug discovery. Methods for structural based drug design can be classified into two groups: virtual screening and de novo design. As de novo design methods do not depend on available compound
17、libraries, higher chemical diversity and biological activity of mo</p><p> This thesis aims to overcome the main difficulties in de novo drug design and build an integrated de novo drug design system, which
18、 includes: protein binding cavity detection and druggability prediction, de novo molecule design, binding energy estimation, post-filtering, and compound synthesis accessibility analysis. This system can not only perform
19、 all required functions in de novo drug design, but also solved the two major problems in de novo drug design, that is, synthesis difficulty and low </p><p> This thesis mainly contains six parts:</p>
20、<p> A protein-ligand binding site detection program, Cavity was developed. A novel geometric detection approach, “ball erase” and a geometric split algorithm “Shrink-Expand” for determining the accurate boundary
21、 of binding sites were developed, which can provide more precise information of the geometric shapes of binding sites. In order to predict the maximum binding capacity of the cavities detected, an evaluation parameter to
22、 predict the binding capabilities, named "CavityScore" was introduced,bas</p><p> Based on the LigBuilderV1.2, a de novo drug design program, formerly developed in the author’s laboratory, a new g
23、eneration of the program, LigBuilderV2.0, has been developed. LigBuilderV2.0 includes three new de novo design strategies: the exploring mode, the ensemble growing mode and the ensemble linking mode. Exploring mode can a
24、utomatically extract seed structures from the growing population, and update the seed library. With the evolution of seed library, the exploring mode becomes an infin</p><p> Based on the Score2.0 and Score
25、3.0 formerly developed in the author’s laboratory, a new generation of empirical scoring function, Score4.0 was developed. Hydrogen bonds play key role in the specific interactions between the target and its</p>&
26、lt;p> ligand. The nature of hydrogen bonding is the electrostatic interaction between the proton and the lone pair. Directions of the lone pairs are not considered well in most scoring functions. Score4 re-assembles
27、hydrogen atoms and at the same time take the direction of the lone pair electrons into consideration. Furthermore, Score4 also handles the hydrogen bond cluster and detects potential water bridges. In addition, according
28、 to the lock-key model of molecular binding, good geometric complement</p><p> An embedded synchronous synthesis accessibility analysis module was introducted in LigBuilderV2.0. Synthesis accessibility is o
29、ne of the critical bottlenecks of de novo drug design method. As the molecules generated by de novo drug design method are often complicated and difficult to be synthesized, making experimental validation impossible. The
30、refore, we have developed a retro-synthesis system based on reaction feature matching and database, while constructed a scalable organic reactions databa</p><p> A post-filter module in LigBuilderV2.0 was d
31、eveloped. As the expensive synthesis cost of new chemical scaffolds, we have extraordinarily demands on low false positive rate compared with virtual screening. The post-filter module will eliminate none-confident result
32、s, and then sort the molecules by an integrated estimation rule, which can be used to select refined molecules for generating the final report from a huge amount of designed results. The post-filter module is composed&
33、lt;/p><p> by several filter models: (1) Lock and key model; (2) Stability model (the remaining degree of freedom model); (3) Binging energy landscape profile. These filters consider the influences of binding
34、 kinetics to certain extent to improve the accuracy of the scoring function.</p><p> LigBuilderV2.0 has been successfully applied in designing novel Cyclophilin A inhibitors. Cyclophilin A plays important r
35、oles in many biological processes. A naturally occuring cyclophilin A inhibitor, cyclosporin A has been used as clinical immuno-repressor. In order to discover Cyclophilin A inhibitors with novel chemical structures, we
36、used LigBuilderV2.0 to design a series of compounds with a ureide linker, and 38 of the final 98 filtered structures have a consistent scaffold. One of these m</p><p> Key Words:binding site detection; scor
37、ing function; de novo design;post-filter; synthesis accessibility analysis;</p><p><b> 目錄</b></p><p><b> 第一章緒論1</b></p><p> 1.1基于結構的藥物設計1</p>
38、<p> 1.2本論文的工作設想8</p><p> 第二章蛋白質配體結合位點預測10</p><p><b> 2.1引言10</b></p><p> 2.2計算方法11</p><p> 2.2.1深度的定義及應用11</p><p> 2.2.2
39、球擦除法12</p><p> 2.2.3伸縮算法15</p><p> 2.2.4CavityScore16</p><p> 2.2.5蛋白結構處理18</p><p> 2.2.6數據集與結果19</p><p><b> 2.3討論23</b></p&
40、gt;<p> 第三章化合物設計算法25</p><p><b> 3.1引言25</b></p><p> 3.2計算方法28</p><p> 3.2.1片段庫構建28</p><p> 3.2.2片段提取31</p><p> 3.2.3探索模
41、式32</p><p> 3.2.4集合生長模式35</p><p> 3.2.5集合連接模式36</p><p> 3.2.6能量優(yōu)化40</p><p> 3.2.7遺傳算法40</p><p> 3.2.8評價方法41</p><p> 3.2.9結構控
42、制43</p><p> 3.2.10雜環(huán)替換45</p><p> 3.2.11全自動化設計與可視化報告46</p><p><b> 3.3討論47</b></p><p> 第四章打分函數50</p><p><b> 4.1引言50</b&g
43、t;</p><p> 4.2SCORE 451</p><p> 4.2.1氫鍵計算51</p><p> 4.2.2鎖鑰匹配56</p><p> 4.2.3數據集57</p><p> 4.2.4結果58</p><p><b> 4.3討論6
44、0</b></p><p> 第五章后篩選62</p><p><b> 5.1引言62</b></p><p> 5.2后篩選方法64</p><p> 5.2.1穩(wěn)定性打分64</p><p> 5.2.2結構匹配分68</p><
45、p> 5.2.3組合篩選模型(Filter)與分子挑選器(Recommender)69</p><p> 5.2.4結合勢能面判定71</p><p> 5.2.5MM/PBSA 計算77</p><p> 5.2.6結果79</p><p><b> 5.3討論83</b></
46、p><p> 第六章化合物可合成性分析85</p><p><b> 6.1引言85</b></p><p> 6.2內置同步合成分析86</p><p> 6.2.1基本原理87</p><p> 6.2.2算法實現89</p><p> 6.
47、2.3反應庫構建95</p><p><b> II</b></p><p> 6.2.4原料庫構建103</p><p> 6.3討論103</p><p> 第七章親環(huán)素 A 抑制劑設計105</p><p> 7.1引言105</p><p&
48、gt; 7.2設計步驟106</p><p> 7.2.1結合位點探測106</p><p> 7.2.2第一輪設計108</p><p> 7.2.3第二輪設計109</p><p> 7.2.4實驗驗證109</p><p> 7.3討論113</p><p&
49、gt; 第八章論文工作總結115</p><p><b> 參考文獻121</b></p><p><b> 致謝131</b></p><p> 論文期間發(fā)表文章列表:133</p><p><b> 第一章緒論</b></p><p
50、> 1.1 基于結構的藥物設計</p><p> 藥物分子設計作為化學、物理學、生命科學、計算機和信息科學等幾大學科 交叉、綜合的產物,于 20 世紀奠定了發(fā)展基礎。發(fā)展到今天,不僅在理論和方 法上取得了豐碩成果,而且也已邁開實際應用的步伐。目前,隨著人類基因組計 劃的完成、蛋白質組學迅猛發(fā)展以及大量的疾病相關基因被發(fā)現,使得藥物設計 的可用靶標分子數急劇增加;另一方面,計算機技術發(fā)展日新月異,計算能力
51、得 到極大提高,使得從前由于計算資源不足而無法進行的藥物分子設計變得可行。 在這兩方面的推動下,計算機輔助藥物設計技術在過去二十年中取得了巨大進展 (陳凱先 and 羅小民, 2000)。</p><p> 早期以結構為基礎的藥物設計是通過對一系列配體構效關系的分析,間接的 得到靶位點結構信息,然后指導新配體的設計。隨著 X-射線衍射、核磁共振技 術完善和發(fā)展,越來越多的生物大分子的三維結構被測定,并直接應用到
52、藥物分 子的設計上去。位于美國加州大學圣地亞哥分校超級計算機中心的蛋白質結構數 據庫(PDB)是目前最大的蛋白質三維結構信息數據庫(Berman, Westbrook et al., 2000)(http://www.rcsb.org),數據庫的數據量從 1993 年以來增長趨勢不斷加速。 PDB 的蛋白質結構數據豐富準確,是絕大多數計算機輔助藥物設計的直接出發(fā) 點。</p><p> 基于結構的藥物設計具有非
53、常明確的設計目標,效率遠高于傳統的藥物發(fā)現 過程。有人曾形象的用鎖和鑰匙關系來說明基于結構藥物設計的優(yōu)越性:傳統的 藥物發(fā)現好比是大量制造鑰匙,以便尋找到一把正好能打開位置形狀的鎖的鑰匙; 而基于結構的藥物設計是先研究鎖的形狀,在此基礎上來尋找鑰匙。為了尋找這 些鑰匙,通常有兩種策略,即數據庫搜索法和結構生成法,前者可以看做在大量 鑰匙中找合適的鑰匙,后者則是重新打造一把合適的鑰匙。自從九十年代以來, 二十年間發(fā)展了大量基于結構藥物設計
54、程序,設計策略多種多樣,但最為基本的</p><p> 仍然是數據庫搜索法里面的三維數據庫搜索(Docking)以及結構生成法中的生 長法(Growing)和連接法(Linking)。</p><p> 三維數據庫搜索根據結合位點的物化性質與幾何形狀,嘗試將巨大的有機化 合物分子庫的每一個分子與結合位點進行匹配。由于數據庫中的分子是商品化的 化合物,可以直接購買,從而可以較快地進入生物
55、測試階段,提高新藥開發(fā)的效率。 I.D.Kuntz 開發(fā)的 DOCK(Kuntz, Blaney et al., 1982; Kuntz, 1992)程序就是典型代 表。</p><p> DOCK 程序首先對受體結合位點進行分析,定位結合部位,然后在結合部位 中以不同大小的圓球填充,而這些圓球也就構成結合部位的負像,也即是結合部 位最大的容納空間。然后 DOCK 順次選取數據庫中的分子,進行旋轉、平移等 方法
56、尋找可能的結合方式,然后根據打分函數對其取向和位置進行優(yōu)化。打分函 數一般考慮的是范德華相互作用和靜電相互作用,可以通過分子力學公式進行計 算。據文獻報道,DOCK 程序的成功率可以達到 2~20%,并且可以得到?M 級別 的化合物(DesJarlais, Seibel et al., 1990)。隨著基于三維數據庫搜索算法的大量成 功,這種方法已經成為基于結構藥物設計的主流。</p><p> 近十年來,結構
57、生成法(也即全新藥物設計)越來越得到人們的重視,它根據 受體結合部位的幾何形狀和物化性質,由計算機自動構建出形狀互補、性質匹配 的新分子,使其與受體活性部位很好地契合,從而有望成為新的先導化合物或者 抑制劑。全新藥物設計課題得到實驗驗證的數目在逐年增加(由圖 1.1 ) (Kutchukian and Shakhnovich, 2010)。</p><p> 圖 1.1 2005 至 2010 年間全新藥物設
58、計結果得到實驗驗證的報道。</p><p> (Kutchukian and Shakhnovich, 2010)</p><p> 最近二十年,已經有包括 HSITE/2D(Danziger and Dean, 1989) , LEGEND(Nishibata and Itai, 1991), LUDI(Böhm, 1992), SPROUT(Gillet, Johnso
59、n et al., 1993), HOOK(Eisen, Wiley et al., 1994), PRO LIGAND(Clark, Frenkel et al.,</p><p> 1995),GrowMol(Bohacek and McMartin, 1994), PRO-LIGAND(Clark, Frenkel et al.,</p><p> 1995), CONCERTS
60、(Pearlman and Murcko, 1996), RASSE(Luo, Wang et al., 1996), SmoG(DeWitte and Shakhnovich, 1996),LeapFrog (Tripos Inc., St. Louis, MO, http://www.tripos.com.), DycoBlock(Liu, Duan et al., 1999),TOPAS(Schneider, Lee et al.
61、, 2000),LigBuilder(Wang, Gao et al., 2000),CoG(Brown, McKay et al., 2004), LEA3D(Douguet, Munier-Lehmann et al., 2005),FLUX(Fechner and Schneider, 2006; Fechner and Schneider, 2007) , MHC-Ant(Hiss, Bredenbeck et al., 200
62、7) , BOMB(Barreiro, Kim et al., 2007)</p><p> COLIBREE(Hartenfeller, Proschak et al., 2008),MEGA(Nicolaou, Apostolakis et al., 2009),AutoGrow(Durrant, Amaro et al., 2009),e-LEA3D(Douguet, 2010)
63、以及 BIBuilder(Teodoro and Muegge, 2011)等大量程序被發(fā)展出來。 Gisbert Schneider、 Hartenfeller、Jan A. Hiss 等人對當前的全新藥物設計方法進行較為細致的分類和 綜述(Schneider and Fechner, 2005; A Hiss, Hartenfeller et al., 2010)。</p><p> 從分子構建單元來說,包
64、括基于原子和基于片段兩類。原子是化學分子的基 元,構建、發(fā)展新的分子也即是添加新的基元的過程。較為早期的全新設計方法 有很多是直接將原子拼接到目標分 子上以獲得新的結構,包括 LEGEND(Nishibata and Itai, 1991)、CONCERTS(Pearlman and Murcko, 1996)等。 然而,研究者逐漸發(fā)現,使用原子作為構建單元雖然能夠能夠有更大的多樣性, 但很多時候未必具有化學合理性,同時在分子穩(wěn)定性方面
65、也很有問題。Danziger 等人最早在 HSITE/2D(Danziger and Dean, 1989)使用了片段作為構建基元代替單 個的原子。通常來說,片段法使用的分子片段源于化學分子中的常見子結構,同 樣也可以看做是化學分子的基元。使用片段法構建分子,因為所需構建的次數大 幅度減少,很大程度上緩解了原子法構建分子化學合理性低的問題。此外,一些 計算方法雖然并不直接構建分子,而是通過片段替換或者突變的方法演化分子結 構,例如 TO
66、PAS(Schneider, Lee et al., 2000),從本質上來說也可以看做是片段法。</p><p> 從約束條件來說,分為基于受體和基于配體兩類。使用打分函數來對設計的 分子進行評價是全新設計過程的核心步驟,需要一種方法來分辨設計分子的優(yōu)劣, 并以此來指引設計的方向。打分函數實際上反映的就是設計結果對約束條件適應 度的評估。</p><p> 二十年前,全新藥物設計方法
67、中所使用的約束條件僅僅局限于受體的信息 (Lewis, Roe et al., 1992; Rotstein and Murcko, 1993; Tschinke and Cohen, 1993),不 過很快就有更為復雜的方法發(fā)展出來?;旧蟻碚f,這種基于受體的打分函數主 要分為三類:基于力場的打分函數、經驗打分函數以及基于知識的打分函數, 本質上來說,都是對結合自由能的估算方法。其中,基于力場的打分函數從計算 上來看效率較低,LEG
68、END(Nishibata and Itai, 1991),是第一個在全新設計中使用</p><p> 力場來作打分函數的方法,然而這么多年來,使用力場作為打分函數的方法只有 GroupBuild(Rotstein and Murcko, 1993),Concerts(Pearlman and Murcko, 1996), DycoBlock(Liu, Duan et al., 1999)等寥寥幾個。LUDI(
69、Böhm, 1992)是最早在全新設 計中使用基于經驗打分函數的方法。經驗打分函數是把與相互作用的能量拆分為 若干因素,然后通過對已知結合能的訓練集進行線性回歸,擬合出各個因素的貢 獻,也即是權重,用以構建打分函數。雖然因為擬合數據集質量的限制,基于經 驗的打分函數比較容易出現系統偏差,但其高速的特性使得其在全新藥物設計方 面 有 了 較 廣 泛 的 應 用 , 例 如 CONCEPTS(Pearlman and Murcko
70、, 1993),GrowMol(Bohacek and McMartin, 1994),LigBuilder(Wang, Gao et al., 2000) 等等。近年來基于知識的打分函數在虛擬篩選方面運用較多,但到目前為止,在 全新設計領域僅有 SmoG(D</p><p> 如果不知道目標受體的三維結構信息,但知道一些配體的結構,則可以考慮 使用基于配體的打分函數。PRO LIGAND(Clark, Fre
71、nkel et al., 1995)利用配體三 維信息進行藥效團模型預測并獲取一個較為粗糙的受體模型,并以模型作為新的 約束條件。其實這仍然是用基于受體的打分函數的思路來構建基于配體的打分函 數。我們知道,對基于受體的打分函數來說,必須考慮分子具體的構象,相比之 下,基于配體的打分函數僅需考慮分子的拓撲結構。因此,另一種方法是只考慮 分子的二維結構,通過計算分子間的相似性構建打分函數,例如 TOPAS(Schneider,</p&
72、gt;<p> Lee et al., 2000),CoG(Brown, McKay et al., 2004)。 因為對從頭設計來說,分子的每一步構建,都會有大量的可能性,因此必然</p><p> 會面對組合爆炸的問題。因此需要使用合理的搜索策略,在盡量短的時間內獲得</p><p> 盡量優(yōu)秀的解。回到前面討論的分類問題,全新設計中構象搜索策略分類較多, 較為簡單
73、的包括深度優(yōu)先搜索、廣度優(yōu)先搜索以及隨機搜索,此外大部分全新藥 物設計方法都運用遺傳算法來進行優(yōu)化。</p><p> 深度優(yōu)先搜索,顧名思義,指的是搜索過程中每一步搜索都僅考慮一種可能 性,然后不斷深入直到結束。使用深度優(yōu)先搜索,即使每一步都是當前狀態(tài)的最 優(yōu)解(局部最優(yōu)解),也不能保證搜索過程能夠到達全局最優(yōu)解。不過這種方法 的優(yōu)點是大大減小了搜索空間。使用深度優(yōu)先搜索的全新設計程序包括 GroupBuil
74、d(Rotstein and Murcko, 1993),SPROUT(Gillet, Johnson et al., 1993)等。</p><p> 廣度優(yōu)先搜索則是先確定一個水平的搜索面,然后在這個平面中順次搜索每 個位置的最優(yōu)解,最終合起來就是整個搜索面的最優(yōu)解,這種算法實際上搜索了 所有的可能性,是一種遍歷算法。一般來說只有小規(guī)模的問題才會使用廣度優(yōu)先 搜索,將之應用于全新設計方法,則必須先減小問題的
75、規(guī)模。比如在連接算法中, 幾個關鍵片段已經被固定放置,搜索空間大大減小,則這種遍歷算法也變得可行。 RASSE(Luo, Wang et al., 1996)使用了一種改進的廣度優(yōu)先算法,也就是在每一步 中只考慮 100 個最優(yōu)解,使得搜索空間變小。SPROUT(Gillet, Johnson et al., 1993) 通過 A-star 算法估算當前位置搜索到結束的代價,然后進行深度優(yōu)先算法的計算, 可以看做一種廣度優(yōu)先和深度優(yōu)先的
76、混合算法。</p><p> 另一種簡單的搜索方法是隨機采樣,完全的隨機采樣也稱為蒙特卡洛搜索, LEGEND(Nishibata and Itai, 1991)就使用了這種搜索方法。蒙特卡洛方法也可以 和模擬退火結合,在分子改變時根據分子的打分判斷接不接受這個改變。如果這 個改變使得打分提升,則直接接受,如果使得打分下降,則只以一定的概率接受, 這個概率取決于打分下降的幅度,幅度越大,概率越低。CONCEPT
77、S(Pearlman and Murcko, 1993)是第一個使用蒙特卡洛模擬退火的全新設計方法,后來也有 GrowMol(Bohacek and McMartin, 1994),CONCERTS(Pearlman and Murcko, 1996), 等方法繼續(xù)使用這種搜索算法。</p><p> 遺傳算法(Holland, 1975)是全新設計方法里面運用較多的算法,它是基于 1895 年達爾文提出的生
78、物進化論而發(fā)展出來的一種優(yōu)化方法。達爾文的進化論 指出,自然選擇是生物物種進化的動力。遺傳算法模仿生物進化中,基因間進行 優(yōu)勝劣汰適者生存的斗爭,不斷適應環(huán)境的特性,實現對整個種群的優(yōu)化。遺傳 算法中把分子抽象為一個個的基因,然后根據打分函數,判斷分子在環(huán)境中的適</p><p> 應度。因為適應度高的分子在種群中繁衍速度高于適應度低的分子,因此隨著一 代代的繁衍下去,最終淘汰掉差的分子,保留優(yōu)勢的分子。使用這
79、種策略的方法 有 LigBuilder(Wang, Gao et al., 2000),TOPAS(Schneider, Lee et al., 2000),等等。</p><p> 分子構建方式也多種多樣,包括生長法,連接法,動力學模擬,分子對接以 及隨機法等。但占據主流的還是片段生長法以及片段連接法。</p><p> 生長法是先將起始片段置入目標位置,然后在其基礎上逐步添加新的片
80、段或 原子,直到具有足夠的大小或者長滿了結合位點。片段連接法是將多個起始片段 置入目標位置,然后在其上逐步添加新片段或原子,以使得這些起始片段連接成 一個整體。起始片段可以源于拆分已知抑制劑、分子對接、基于 NMR 或 X-ray 的小片段篩選,甚至可以由用戶自己創(chuàng)作。然后從一個分子片段庫中提取片段, 取代起始片段上的氫原子,并對片段進行構象優(yōu)化,作為下一步生長的起始片段。 連接法在片段生長方面與生長法相同,但是會嘗試將靠近的片段進行融
81、合或者連 接。包括 LEGEND(Nishibata and Itai, 1991),LUDI(Böhm, 1992),LigBuilder(Wang, Gao et al., 2000),CoG(Brown, McKay et al., 2004),AutoGrow(Durrant, Amaro et al., 2009),BOMB(Barreiro, Kim et al., 2007)等大量程序都屬于這兩類方法。</
82、p><p> 全新設計方法往往很容易產生新的結構類型,但由于所設計的化合物需要進 行合成,有時甚至是全合成,往往有很大難度。這樣一來,設計出的分子無法進 行實驗也就失去了意義。同時,即使是合成較容易合成的分子,時間與經濟成本 仍然遠高于直接購買已有分子。受限于這個原因,使用全新設計方法所能合成的 分子數非常有限,因此還必須保證設計結果的準確性。全新藥物設計方法發(fā)展至 今,依然沒有很好的解決這兩個關鍵問題,因此,本文
83、嘗試發(fā)展新的方法,降低 設計分子的復雜度,以利于進行實驗合成,同時盡量提高設計的成功率。</p><p> 圖 1.2分子對接與全新設計的比較</p><p> 1.2 本論文的工作設想</p><p> 如前所述,與虛擬篩選相比,全新藥物設計方法有著多方面的優(yōu)勢。特別是, 采用全新藥物設計方法,理論上能夠直接得到納摩爾甚至皮摩爾級活性的化合物, 省去虛擬篩
84、選方法得到低活性片段后再反復進行優(yōu)化的步驟,而這個步驟在基于 虛擬篩選方法的藥物設計階段中占據了最大的比重。但是,雖然全新藥物設計方 法有著諸多優(yōu)點,但與虛擬篩選方法在近二十年間獲得的巨大成功相比,全新藥 物設計方法更多的還是停留在一個輔助方法的地位,少有成功的案例。</p><p> 本論文工作的核心是發(fā)展一個完整的全新藥物設計系統,對全新藥物設計方 法的各個環(huán)節(jié)進行針對性的優(yōu)化,最終目標是希望能將全新藥物設
85、計方法推入實 用階段。一個藥物設計系統所涵蓋的范圍非常廣泛,我們不可能也沒有必要獨立 開發(fā)所有環(huán)節(jié)。本文在借鑒一些優(yōu)秀方法的同時,著重于針對全新藥物設計方法 的特點,對其進行優(yōu)化。本文的主要優(yōu)化目標如下:</p><p> 1.優(yōu)化結合位點探測方法,為全新藥物設計提供更精確的結合位點幾何形</p><p> 狀以及精確的邊界劃分。</p><p> 2.
86、優(yōu)化分子設計算法,使全新藥物設計方法真正具備無限的創(chuàng)造性,而不 再受限于任何起始結構。</p><p> 3. 優(yōu)化打分函數,全新藥物設計對低假陽性率有非常高的需求,因此主要 對引起假陽性的因素進行優(yōu)化,盡量減少預測偏差。</p><p> 4. 優(yōu)化后篩選方法,全新藥物設計方法非常低通量,因此必須過濾高風險 分子,并進行綜合評價以挑選最具潛力的分子進行合成。</p>
87、;<p> 5.優(yōu)化可合成性分析,簡化分析系統并大幅度提高分析速度,以適應全新 藥物設計的高計算量。</p><p> 第二章蛋白質配體結合位點預測</p><p><b> 2.1 引言</b></p><p> 蛋白質是執(zhí)行許多生命過程的重要分子,比如酶的催化、信號的轉導和代謝 調節(jié)等。蛋白質分子表面的結構、物化屬
88、性對其行使生物功能有著重要的作用。 起催化小分子作用的蛋白質表面通常都具備一個疏水性的凹陷部位(后面稱為口 袋),作為結合小分子并行使催化功能的催化中心。普通的藥物結合位點一般在 蛋白的活性部位,比如酶的催化位點、受體的配體結合位點等。因此,蛋白質的 小分子結合位點是藥物設計以及研究蛋白功能的關鍵。結構基因組學和高通量結 構生物學領域的飛速進展使得已知蛋白結構數量大大增加(Congreve, Murray et al., 2005).
89、雖然可以得到蛋白質與其配體結合的復合物晶體結構,但因為其配體 往往并不能完全占據結合位點,直接根據配體來描述結合位點并不能得到精確的 結合位點信息。同時,有很多蛋白質的功能具有多樣性,有多個底物結合位點, 或者在一個底物結合位點中可以結合多種底物,而這些底物占據區(qū)域只有部分重 合,這種現象被稱作蛋白的"moonlighting"(Jeffery, 1999)。由實驗得到復合物結構 信息,并不足以幫助我們確認是否還有其
90、他可能的"moonlighting"</p><p> 蛋白結合位點的探測與預測程序有許多,近年來發(fā)展了大量不同的方法,并 且已經有了幾篇綜述進行歸納總結(Laurie and Jackson, 2006; Henrich, Salo-Ahen</p><p> et al., 2010; Leis, Schneider et al., 2010)。這些方法主要可以
91、分為兩類:(a) 基于結 構的和 (b)基于能量的。 基于結構的方法往往速度較快,而基于能量的方法在</p><p> 探測分子結合位點時更有優(yōu)勢?;诮Y構的探測方法主要有 POCKET(Levitt and Banaszak, 1992), SurfNet(Laskowski, 1995), APROPOS(Peters, Fauck et al., 1996), LIGSITE(Hendlich, Ripp
92、mann et al., 1997), PASS(Brady and Stouten, 2000), LigandFit(Venkatachalam, Jiang et al., 2003), CASTp(Dundas, Ouyang et al., 2006),</p><p> 以及 fpocket(Le Guilloux, Schmidtke et al., 2009);而基于能量的方法主要有&
93、lt;/p><p> GRID(Goodford, 1985), Pocket finder(An, Totrov et al., 2005), Q-SiteFinder(Laurie and Jackson, 2005)以及 SiteMap(Halgren, 2007), 去溶劑化自由能模型(Coleman, Salzberg et al., 2006) 以及溶劑分布模型(Landon, Lancia Jr et
94、 al., 2007)等。 另外, Roterman 及其合作者報道了一種基于疏水性空間分布的模糊油滴探測模型 (Brylinski, Kochanczyk et al., 2007)。 這些方法考慮了結合位點的不同屬性,例如 體積、疏水性、氫鍵、勢能、溶劑可及表面、去溶劑化能或者結合位點殘基的組 成,選擇不同的描述屬性也會影響預測的結果。本論文所發(fā)展的蛋白質表面結合 位點探測方法 Cavity,主要基于幾何形狀分析,同時兼顧考慮氫鍵
95、、疏水性屬性, 并計算 CavityScore 對結合位點進行評價。</p><p><b> 2.2 計算方法</b></p><p> 2.2.1深度的定義及應用 蛋白質的表面是一個凸凹不平的不光滑曲面,沒有簡單的方法可以加以描述。</p><p> 因此在這樣一個不光滑曲面上探測口袋,關鍵就在于如何定義一個口袋和如何確 定它的邊界
96、。在這里本文引入一個深度的概念。在使用可視化程序查看和分析蛋 白結合位點時,深度往往是一個直覺性的概念,無法使用準確的方式描述。目前 文獻中有兩種深度定義方法,一是把殘基的某個代表性原子與最近的表面水分子 的距離定義為殘基的深度(Chakravarty and Varadarajan, 1999), 二是定義為一個非 氫原子與其最近的溶劑可及表面原子的距離(Pintar, Carugo et al., 2003; Varrazzo,&l
97、t;/p><p> Bernini et al., 2005)。這兩種方法定義的都是定義原子在蛋白內部的深度,主要用 于研究蛋白的折疊與穩(wěn)定性,它們與蛋白、殘基以及原子屬性相關,可以反映平 均蛋白結構域體積,蛋白穩(wěn)定性,復合物結合自由能,氨基酸殘基疏水性,殘基 保守性以及氨基質子交換率等等方面(Pintar, Carugo et al., 2003)。 但在判定結合 位點時,所需要定義的深度是用于描述結合位點的凹陷
98、程度。例如(Del Carpio,</p><p> Takahashi et al., 1993)直接使用蛋白原子到蛋白質心的距離來定義深度的變化。 雖然許多文獻中認為深度是比溶劑可及表面更為重要的信息,然而這些方法</p><p> 實際上并不能很好的描述深度這個概念,結果并不盡如人意。Coleman 和 Shape 定義了 Travel Depth 來描述結合位點以及通道的深度(
99、Coleman and Sharp, 2006), 它們定義一個溶劑分子從蛋白表面點到另一個選定的參考表面點之間的距離為 這個表面點的深度。這種深度定義方法能夠反映結合位點中的原子或殘基到結合 位點外的表面點的距離,可以看一定程度上反映了深度的信息。然而,這種方法 得到的深度實際上結合位點開口處邊界到結合位點中心沿著蛋白表面的長度,是 一個三維面上的距離,而深度實際上應該指結合位點開口的界面與結合位點最深 處的一個三維空間中的距離。結合
100、位點最深處可以被定義為距離開口界面最遠的 位置,所以一旦定義了開口界面,深度就很容易定義。因此,深度的定義可以轉 換為如何探測結合位點開口界面的問題。</p><p> 2.2.2球擦除法 為了定義結合位點的開口界面,我們不能局限于蛋白表面的殘基,而必須直</p><p> 接考慮結合位點的空間幾何構型。因此本文發(fā)展了一種球擦除算法,直接從空間 幾何形狀上確定結合位點的邊界以及開口界
101、面。為了便于程序處理,先給整個蛋 白質分子占據的空間打上網格,因為蛋白質分子的晶體結構分辨率一般大于 2.0Å, 網格的邊長定為 0.5Å 即可。生成網格后,程序使用一個水分子(半徑定為 1.4Å)</p><p> 作為探針放在每一個格點上,檢查它們所處的位置。這里蛋白原子的屬性由 Tripos 力場(Clark, Cramer III et al., 1989)賦值。這時會出現
102、兩種情況:一是格點 上的水分子探針與蛋白質原子(忽略氫原子)之間發(fā)生范德華碰撞,說明格點被 蛋白質原子占據,則把這個格點標記為 E(Excluded),二是探針沒有發(fā)生碰撞,</p><p> 則標記為 V(Vacant)。與 V 格點相鄰的 E 格點組成蛋白質的表面,改標記為 S</p><p> ?。⊿urface)。(見圖 2.1)。使用水分子作為探針探測每一個格點與蛋白質原子之間
103、 的相互作用,可以避免蛋白質原子間形成的小孔隙對蛋白表面情況的影響,實際 得到的是蛋白質溶劑可及表面。</p><p> 圖 2.1 結合位點處的網格標記</p><p> 程序生成一個半徑為 6.0Å 的球,將距離蛋白表面距離大于 5.5Å 范圍的格點 都定義為可能的球心,然后 “擦除”掉所有球可及的 V 格點(圖 2.2)。</p><p&g
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
評論
0/150
提交評論