生物信息學(xué)第三章_第1頁(yè)
已閱讀1頁(yè),還剩155頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、第三章 生物信息學(xué)資源與數(shù)據(jù)挖掘工具,§3.1 引言近20年來(lái),有關(guān)分子生物學(xué)的大規(guī)模合作研究項(xiàng)目(如人類基因組計(jì)劃)已在世界范圍內(nèi)開(kāi)展起來(lái)。這些跨單位、跨地區(qū)甚至跨國(guó)的科研協(xié)作均需在保證實(shí)驗(yàn)數(shù)據(jù)可靠性和完整性的前提下,及時(shí)實(shí)現(xiàn)信息資源共享。各種分子生物學(xué)數(shù)據(jù)庫(kù)業(yè)已建立并仍在不斷發(fā)展之中,它們也已成為相關(guān)研究中的主要數(shù)據(jù)來(lái)源和數(shù)據(jù)交換手段?,F(xiàn)階段已建立的分子數(shù)據(jù)庫(kù)種類繁多,內(nèi)容廣泛。這些數(shù)據(jù)庫(kù)中收錄的信息大致包括:

2、,基因與基因組序列蛋白質(zhì)編碼序列質(zhì)譜與蛋白質(zhì)組資料大分子結(jié)構(gòu)大分子特殊活性及其他特性小分子及結(jié)晶分析等幾方面的數(shù)據(jù)以及參考文獻(xiàn)等還有不少專門(mén)管理分子數(shù)據(jù)庫(kù)的數(shù)據(jù)庫(kù)或索引網(wǎng)站(搜索引擎)。隨著網(wǎng)絡(luò)技術(shù)的普及,分子生物學(xué)信息系統(tǒng)大多數(shù)都實(shí)現(xiàn)了網(wǎng)絡(luò)化。,越來(lái)越多的生物學(xué)數(shù)據(jù)庫(kù)中的信息量呈爆炸性增長(zhǎng),生物學(xué)文獻(xiàn)是相關(guān)研究的產(chǎn)物,其增長(zhǎng)趨勢(shì)也是十分驚人的。例如,用“protein”來(lái)檢索MEDLINE(通過(guò)PubMed的查詢界面)中

3、的文獻(xiàn)(摘要),其數(shù)量增長(zhǎng)如圖,PubMed 檢索次數(shù)增長(zhǎng)迅速,另一方面,文獻(xiàn)的內(nèi)容和熱點(diǎn)也在不斷變化之中,特別是在交叉學(xué)科領(lǐng)域發(fā)展得更快。例如,Andrade和Bork(2000)對(duì)涉及“genetics”和“disease”的學(xué)術(shù)刊物進(jìn)行了計(jì)量分析,這些均為OMIM(online mendelian inheritance in man, http : //www. ncbi. n1m. nih. gov/omim/)中高引用率的刊

4、物(引用數(shù)每年100篇以上)。,近年來(lái),生物學(xué)資料的快速增長(zhǎng)使信息科學(xué)有了用武之地,而復(fù)雜的分子生物信息又對(duì)傳統(tǒng)的數(shù)據(jù)處理技術(shù)提出了新的挑戰(zhàn)?;虻耐暾磉_(dá)圖譜,這些基因涉及細(xì)胞周期、孢子形成和營(yíng)養(yǎng)變化、對(duì)熱擊壓力和氧化壓力的應(yīng)答等,數(shù)據(jù)集則包含2500000個(gè)獨(dú)立的和相關(guān)的信息,當(dāng)然也含有不少的“噪聲”。,這些大規(guī)模、復(fù)雜數(shù)據(jù)的分析工作不可能由人工手算,也很難用傳統(tǒng)的圖像處理技術(shù)和生物統(tǒng)計(jì)方法來(lái)完成。因而,一批新的信息處理技術(shù)被引入

5、到這一領(lǐng)域并逐漸發(fā)揮重要作用。這些技術(shù)可統(tǒng)稱為“生物信息學(xué)的數(shù)據(jù)挖掘(data mining)工具”(在1999年底召開(kāi)的“Data Mining in Bioinformatics”國(guó)際學(xué)術(shù)討論會(huì))目前,數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)(knowledge data discovery, KDD)工具除包括常規(guī)數(shù)據(jù)分析技術(shù)外,還有專家系統(tǒng)(expert system)、機(jī)器學(xué)習(xí)(machine learning)、神經(jīng)網(wǎng)絡(luò)(neural net

6、work)和遺傳算法(genetic algorithm)等。,§3.2 生物信息學(xué)資源,3.2.1基因組信息基因組信息主要來(lái)源于各類核苷酸序列數(shù)據(jù)庫(kù)。國(guó)際上最重要的公共核苷酸序列數(shù)據(jù)庫(kù)有3個(gè): GenBank(美國(guó)http: //www.ncbi.nlm.nih.gov/) DDBJ(日本http://www.ddbj.nig.ac.jp/)和 EMBL(歐洲http://w

7、ww. embl-heidelberg.de/)。目前,這3個(gè)數(shù)據(jù)庫(kù)已建立數(shù)據(jù)交換協(xié)議,每日同時(shí)更新核酸序列資料。對(duì)用戶而言,在任意一個(gè)數(shù)據(jù)庫(kù)中查詢數(shù)據(jù)(或向任意一個(gè)數(shù)據(jù)庫(kù)投送數(shù)據(jù))基本上是等價(jià)的。這里,我們以GenBank為例,介紹核苷酸序列數(shù)據(jù)庫(kù),3.2.1.1 GenBank的建立與發(fā)展GenBank的全稱為“GenBank Genetic Sequence Data Bank”,由美國(guó)衛(wèi)生和人類服務(wù)部(U.S. Depar

8、tment of Health&Human Services)注冊(cè)。該項(xiàng)目在20世紀(jì)80年代初由美國(guó)Intelli Genetics(IG)公司和Los Alamos國(guó)家實(shí)驗(yàn)室( LANL)共同資助及組織實(shí)施。隨后得到美國(guó)國(guó)立衛(wèi)生研究院(NIH )、國(guó)家醫(yī)學(xué)實(shí)驗(yàn)室(NLM)、農(nóng)業(yè)部(USDA)、國(guó)家科學(xué)基金會(huì)(NFS)及能源部(DOE)等機(jī)構(gòu)的持續(xù)資助。目前,GenBank由美國(guó)國(guó)家生物技術(shù)信息中心(National Center

9、for Biotechnology Information,NCBI)管理運(yùn)行。NCBI-GenBank的主頁(yè),用戶可以直接通過(guò)該頁(yè)面檢索GenBank數(shù)據(jù)庫(kù)。,建立GenBank的主要目標(biāo)是收集世界范圍內(nèi)已發(fā)表的和自行投送的核苷酸序列以及相關(guān)的文獻(xiàn)資料。其主要作用是為大規(guī)模的核苷酸序列數(shù)據(jù)建立檔案,以利于長(zhǎng)期保存,為國(guó)際分子生物學(xué)及相關(guān)研究提供良好的技術(shù)與知識(shí)平臺(tái)。NCBI-GenBank大致經(jīng)歷了如下幾個(gè)階段:1988-1989年

10、:NCBI處于草創(chuàng)時(shí)期,隸屬于NIH的國(guó)家醫(yī)學(xué)圖書(shū)館。一批分子生物學(xué)家、數(shù)學(xué)家、計(jì)算機(jī)科學(xué)家與技術(shù)人員開(kāi)始合作建立新的數(shù)據(jù)模型,開(kāi)發(fā)檢索工具,以適應(yīng)GenBank數(shù)據(jù)量的快速增長(zhǎng)。1990年:開(kāi)始應(yīng)用BLAST。BLAST是一種快速檢索相似性序列的工具。,1991年:開(kāi)始應(yīng)用Entrez。Entrez是一個(gè)整合的數(shù)據(jù)查詢系統(tǒng)。1992年:GenBank正式移到NCBI;表達(dá)序列標(biāo)簽(expressed sequence tag, E

11、ST)技術(shù)開(kāi)始應(yīng)用,NCBI-dbEST數(shù)據(jù)庫(kù)系統(tǒng)建立。1993年:開(kāi)始應(yīng)用Internet和3-D Entrez。GenBank由CD-ROM轉(zhuǎn)換為網(wǎng)絡(luò)系統(tǒng),以適應(yīng)形勢(shì)的發(fā)展。 1994年:NCBI-GenBank網(wǎng)頁(yè)建立。序列標(biāo)簽位點(diǎn)(sequence tagged site, STS是對(duì)由其特定引物序列所界定的一類標(biāo)記的統(tǒng)稱)和電子PCR (e-PCR)技術(shù)開(kāi)始應(yīng)用(computational procedure that i

12、s used to identify sequence tagged sites(STSs), within DNA sequences. e-PCR looks for potential STSs in DNA sequences by searching for subsequences that closely match the PCR primers)。,1995年:開(kāi)始應(yīng)用BankIt。BankIt是基于互聯(lián)網(wǎng)的DNA序列

13、投送軟件;開(kāi)發(fā)整合序列和圖譜的基因組數(shù)據(jù)庫(kù);開(kāi)始應(yīng)用分類瀏覽器(taxonomy browser),將物種、系統(tǒng)發(fā)育信息與Entrez結(jié)合使用。1996年:開(kāi)始應(yīng)用UniGene數(shù)據(jù)庫(kù)(該數(shù)據(jù)庫(kù)將GenBank中屬于同一條基因的所有片斷拼接成完整的基因進(jìn)行收錄)和GeneMap' 96系統(tǒng),整合STS圖譜、序列和UniGene簇?cái)?shù)據(jù),為基因組分析提供基礎(chǔ);開(kāi)始應(yīng)用Sequin軟件,便于大規(guī)模、批量投送序列數(shù)據(jù)。,,1997年:

14、PubMed界面實(shí)現(xiàn)了Entrez軟件系統(tǒng)與MEDLINE數(shù)據(jù)庫(kù)的結(jié)合;Entrez Structures數(shù)據(jù)庫(kù)、VAST(vector alignment search tool)算法和Cn3D結(jié)構(gòu)瀏覽器開(kāi)始用于蛋白質(zhì)分析;Gapped BLAST和PSI-BLAST開(kāi)始用于快速序列相似性檢索;COG(clusters of orthologous group)方法和系統(tǒng)開(kāi)始用于基因組分析。1998年:建立HTGS(高通量基因組序列

15、)組,以適應(yīng)人類基因組計(jì)劃的進(jìn)程;開(kāi)始應(yīng)用PHI-BLAST序列檢索工具;已經(jīng)貯存兩千億以上的堿基對(duì),其中超過(guò)一半來(lái)自人類基因組計(jì)劃。1999年:隨著人類基因組計(jì)劃接近完成,NCBI將重點(diǎn)轉(zhuǎn)移到人類基因組分析。新的應(yīng)用軟件和數(shù)據(jù)庫(kù)系統(tǒng)包括LocusLink, RefSeq和OMIM等。,3.2.1.2 GenBank數(shù)據(jù)庫(kù)下面介紹GenBank數(shù)據(jù)庫(kù)。GenBank是最早的DNA序列數(shù)據(jù)庫(kù)。目前GenBank數(shù)據(jù)庫(kù)中的數(shù)據(jù)按照每年約

16、60%的速率增長(zhǎng)。截止到2005年GenBank數(shù)據(jù)庫(kù)中的核酸序列總長(zhǎng)度達(dá)560億個(gè)堿基,核酸序列數(shù)超過(guò)5200萬(wàn)條。對(duì)于每個(gè)序列,相關(guān)數(shù)據(jù)包括序列名稱、序列、位點(diǎn)、關(guān)鍵字、來(lái)源、生物種類、參考文獻(xiàn)、注釋、序列中具有重要生物學(xué)意義的位點(diǎn)等。隨著分子生物學(xué)技術(shù)的不斷發(fā)展,數(shù)據(jù)的增長(zhǎng)速度將會(huì)不斷提高。,GenBank的數(shù)據(jù)來(lái)源主要有兩條途徑。一是由序列發(fā)現(xiàn)者直接提交。幾乎所有的國(guó)際權(quán)威生物學(xué)刊物都要求作者在文章發(fā)表之前將所測(cè)定的序列提交給E

17、MBL、GenBank或DDBJ,得到數(shù)據(jù)庫(kù)管理系統(tǒng)所簽發(fā)的登錄注冊(cè)號(hào)。二是從生物醫(yī)學(xué)期刊上收錄已經(jīng)發(fā)表的序列資料。 GenBank中最常用的是序列文件。序列文件的基本單位是序列條目,包括核苷酸堿基排列順序和注釋兩部分。目前,許多生物信息資源中心通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)提供該數(shù)據(jù)庫(kù)文件。下面介紹序列文件結(jié)構(gòu)M90100,3.2.1.3 GenBank的分類學(xué)檢索分類學(xué)檢索是GenBank兩類檢索方式中的一種(另一種為序列相似性檢索),比較簡(jiǎn)

18、單,尤其適用于相關(guān)學(xué)科(如分子生態(tài)學(xué)、分子系統(tǒng)學(xué))。例如,我們要查詢水生植物睡蓮科(Nymphaeaceae)的序列資料,可以在NCBI主頁(yè)的查詢框中直接鍵入“Nymphaeaceae”,檢索結(jié)果為所有序列的清單,包括GenBank收錄號(hào)(accession number)、物種拉丁學(xué)名(scientific name)和基因/序列名稱(name of gene or sequence)以及序列完整與否等信息。,例如,我們可以找到查詢流

19、水號(hào)為1的序列,GenBank收錄號(hào)為A627251,物種名稱為白睡蓮(Nymphaea alba),序列為葉綠體全基因組序列。選擇該條目,可以進(jìn)一步獲得該序列的詳細(xì)數(shù)據(jù),包括物種的系統(tǒng)位置、序列作者及地址、論文標(biāo)題/項(xiàng)目名稱、發(fā)表刊物/直接投送、以及序列(本例中序列長(zhǎng)度為159930bp)。,3.2.1.4 向GenBank投送序列,GenBank序列投送工具包括Sequin, BankIt和VecScreen(如圖所示)。下面僅以S

20、equin為例,說(shuō)明序列投送過(guò)程中應(yīng)注意的幾個(gè)問(wèn)題。1. 序列格式常用FASTA格式,如: >eIF4E[organism=Drosophila melanogaster][strain=Oregon R] Drosophila… CGGTTGCTTGGG'I'I'I'I'ATAACATCAGTCAGTGACAGGCATTTCCAGAGTTGCCCTGT… 或

21、蛋白質(zhì)序列 >4E – I [gene=eIF4E] [protein=eukaryotic initiation factor 4E-I] MQSDFHRMKNFANPKSMFKTSAPSTEQGRPEPPI'SAAAPAEAKDVKPKEDPQETGEPA… >4E – II [gene=eIF4E] [protein=eukaryotic initiation factor 4E-II]

22、 MVVLETEKTSAPSTEQGRPEPPTSAAAPAEAKDVKPKEDPQETGEPAGNTATTTAPAG…用于系統(tǒng)發(fā)育研究等的序列,還可用PHYLIP, NEXUS、MACAW和FASTA+GAP、等格式,2.提交步驟采用Sequin的用戶界面。進(jìn)入“Start New Submission”,可逐項(xiàng)選擇或輸入作者信息(Submitting Authors)、格式表單(Sequence Format)、有機(jī)體名稱和序列

23、類型(Organism and Sequences)、基因和蛋白質(zhì)信息(Gene and Protein Information)等。輸入完畢,Sequin將按GenBank的格式顯示你所輸入的信息?!癉isplay Format”容許你選擇圖形或序列形式。在“Annotate”和“Edit”菜單及界面中注釋、更新和修改所投送的序列。欲了解Sequin的其他功能以及或有其他疑問(wèn),可參閱網(wǎng)頁(yè)上提供的“Sequin Quick Gui

24、de”。,3.2.2 蛋白質(zhì)信息蛋白質(zhì)序列和結(jié)構(gòu)分為三個(gè)層次,相應(yīng)的數(shù)據(jù)庫(kù)也可分為3大類,一級(jí),氨基酸序列,AVILDRYFH,一級(jí)數(shù)據(jù)庫(kù),二級(jí),基序,[AS]-[IL]2-X[DE]-R-[FYW2-H,二級(jí)數(shù)據(jù)庫(kù),三級(jí),結(jié)構(gòu)域,AVILDRYFH,a,b,c,結(jié)構(gòu)數(shù)據(jù)庫(kù),,,,,,,,,,,圖3-14 蛋白質(zhì)信息的三個(gè)層次和相應(yīng)的數(shù)據(jù)庫(kù),2.2.2.1蛋白質(zhì)一級(jí)數(shù)據(jù)庫(kù) 一級(jí)數(shù)據(jù)庫(kù)主要以下列幾個(gè)為代表:PIR(Prote

25、in Information Resource)( http://pir. georgetown. edu/)由于蛋白質(zhì)序列測(cè)定技術(shù)先于DNA序列測(cè)定技術(shù)問(wèn)世,蛋白質(zhì)序列的搜集也早于DNA序列。蛋白質(zhì)序列數(shù)據(jù)庫(kù)的雛形可以追朔到60年代。60年代中期到80年代初,美國(guó)國(guó)家生物醫(yī)學(xué)研究基金會(huì)(National Biomedical Research Foundation,簡(jiǎn)稱NBRF)Dayhoff領(lǐng)導(dǎo)的研究組將搜集到的蛋白質(zhì)序列和結(jié)構(gòu)信

26、息以“蛋白質(zhì)序列和結(jié)構(gòu)地圖集”(Atlas of Protein Sequence and Structure)的形式發(fā)表,主要用來(lái)研究蛋白質(zhì)的進(jìn)化關(guān)系。1984年,“蛋白質(zhì)信息資源”(Protein Information Resource,簡(jiǎn)稱PIR)計(jì)劃正式啟動(dòng),蛋白質(zhì)序列數(shù)據(jù)庫(kù)PIR也因此而誕生。與核酸序列數(shù)據(jù)庫(kù)的國(guó)際合作相呼應(yīng),1988年,美國(guó)的NBRF、日本的國(guó)際蛋白質(zhì)信息數(shù)據(jù)庫(kù)(Japanese Internationa

27、l Protein Information Database,簡(jiǎn)稱JIPID)和德國(guó)的慕尼黑蛋白質(zhì)序列信息中心(Munich Information Center for Protein Sequences,簡(jiǎn)稱MIPS)合作成立了國(guó)際蛋白質(zhì)信息中心(PIR-International),共同收集和維護(hù)蛋白質(zhì)序列數(shù)據(jù)庫(kù)PIR。PIR數(shù)據(jù)庫(kù)按照數(shù)據(jù)的性質(zhì)和注釋層次分四個(gè)不同部分,分別為PIR1、PIR2、PIR3和PIR4。PIR1中的

28、序列已經(jīng)驗(yàn)證,注釋最為詳盡;PIR2中包含尚未確定的冗余序列;PIR3中的序列尚未加以檢驗(yàn),也未加注釋; 而PIR4中則包括了其它各種渠道獲得的序列,既未驗(yàn)證,也無(wú)注釋。例子,SwissProt另一個(gè)重要的蛋白質(zhì)序列數(shù)據(jù)庫(kù)則是SwissProt。該數(shù)據(jù)庫(kù)由瑞士日內(nèi)瓦大學(xué)于1986年創(chuàng)建,目前由瑞士生物信息學(xué)研究所(Swiss Institute of Bioinformatics,簡(jiǎn)稱SIB)和歐洲生物信息學(xué)研究所 EBI共同維護(hù)和

29、管理。瑞士生物信息研究所下屬的蛋白質(zhì)分析專家系統(tǒng)(Expert Protein Analysis System,,簡(jiǎn)稱ExPASy)的Web服務(wù)器除了開(kāi)發(fā)和維護(hù)SwissProt數(shù)據(jù)庫(kù)外,也是國(guó)際上蛋白質(zhì)組和蛋白質(zhì)分子模型研究的中心,SwissProt數(shù)據(jù)庫(kù)中的所有序列條目都經(jīng)過(guò)有經(jīng)驗(yàn)的分子生物學(xué)家和蛋白質(zhì)化學(xué)家通過(guò)計(jì)算機(jī)工具并查閱有關(guān)文獻(xiàn)資料仔細(xì)核實(shí)。SIB和EBI共有70多人的研究隊(duì)伍,專門(mén)從事蛋白質(zhì)序列數(shù)據(jù)的搜集、整理、分析、

30、注釋、發(fā)布,力圖提供高質(zhì)量的蛋白質(zhì)序列和注釋信息。SwissProt數(shù)據(jù)庫(kù)的每個(gè)條目都有詳細(xì)的注釋,包括結(jié)構(gòu)域、功能位點(diǎn)、跨膜區(qū)域、二硫鍵位置、翻譯后修飾、突變體等。該數(shù)據(jù)庫(kù)中還包括了與核酸序列數(shù)據(jù)庫(kù)EMBL/GenBank/DDBJ、蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB以及Prosite、PRINTTS等十多個(gè)二次數(shù)據(jù)庫(kù)的交叉引用代碼。特別值得一提的是,ExPAsy專門(mén)聘請(qǐng)了由200多位國(guó)際知名生物學(xué)家組成的網(wǎng)上專家評(píng)審團(tuán),并將SwissPro

31、t數(shù)據(jù)庫(kù)中的蛋白質(zhì)分成200多個(gè)類別,每個(gè)類別由1位或2位評(píng)審專家負(fù)責(zé),通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)進(jìn)行審核。ExPASy網(wǎng)站上列出了這些評(píng)審專家的姓名、電子郵件地址和他們所負(fù)責(zé)評(píng)審蛋白質(zhì)種類。用戶若對(duì)某個(gè)蛋白質(zhì)條目有疑義,可以直接和相應(yīng)的評(píng)審專家取得聯(lián)系。,SwissProt采用了和EMBL核酸序列數(shù)據(jù)庫(kù)相同的格式和雙字母標(biāo)識(shí)字。這種雙字母的標(biāo)識(shí)字對(duì)于數(shù)據(jù)庫(kù)的管理維護(hù)比較方便,但用戶在使用時(shí)卻不很方便,特別對(duì)數(shù)據(jù)庫(kù)格式不很熟悉的用戶,尤為如此。近

32、年來(lái),隨著計(jì)算機(jī)網(wǎng)絡(luò)和信息技術(shù)的發(fā)展,ExPASy開(kāi)發(fā)了面向生物學(xué)家的、基于瀏覽器的用戶界面,特別是用可視化方式表示氨基酸特征表,使用戶對(duì)序列特性一目了然,如二硫鍵、跨膜螺旋、二級(jí)結(jié)構(gòu)片段、活性位點(diǎn)等。截止1998年6月,SWISS-PROT數(shù)據(jù)庫(kù)包含約7萬(wàn)條序列,這些序列涵蓋了5千多個(gè)不同種屬,其中大部分來(lái)自于幾種主要模式生物,如人、啤酒酵母、大腸桿菌、小鼠、大鼠等。SWISS-PROT數(shù)據(jù)庫(kù)的結(jié)構(gòu)與其它蛋白質(zhì)序列數(shù)據(jù)庫(kù)不同。給出S

33、WISS-PROT數(shù)據(jù)庫(kù)中一個(gè)序列條目的實(shí)例。圖中每一行由兩個(gè)字母起始,用來(lái)說(shuō)明每一行所代表的信息。其中第一行以“ID”開(kāi)始,最后一行以雙斜杠“//”結(jié)束。ID行表示該序列的名稱是OPSD_SHEEP,共有348個(gè)氨基酸殘基。SWISS-PROT數(shù)據(jù)庫(kù)的ID包含一定信息,如本例中“OPSD”表示蛋白質(zhì)名稱縮寫(xiě),而“SHEEP”表示該蛋白質(zhì)分子來(lái)自于哪個(gè)物種,中間用下劃線分隔。即這一蛋白序列是來(lái)源于綿羊的視紫紅質(zhì)(rhodopsin)。,

34、SWISS-PROT采用AC(accession number)作為表示某個(gè)特定序列的代碼,具有唯一性和永久性。在文獻(xiàn)中引用某個(gè)序列時(shí),應(yīng)以AC為準(zhǔn),而不是以序列名稱或ID為準(zhǔn)。本例中,代碼AC為P02700。下面的DT行提供了蛋白質(zhì)序列提交到數(shù)據(jù)庫(kù)的時(shí)間,及最近一次修改的時(shí)間等信息。描述行(DE)可以有一行或幾行,提供了對(duì)該蛋白質(zhì)的簡(jiǎn)單說(shuō)明。此例中,說(shuō)明該蛋白質(zhì)為視紫紅質(zhì)。下面的幾行中提供了有關(guān)該蛋白質(zhì)的基因名(GN)、物種來(lái)源

35、(OS)和分類學(xué)位置(OC)等信息。接下來(lái)是與該蛋白質(zhì)相關(guān)的基本注釋信息,包括文獻(xiàn)信息、與測(cè)序有關(guān)的信息、以及對(duì)該蛋白質(zhì)序列分析得到的與結(jié)構(gòu)或突變相關(guān)的信息等。這些注釋為用戶提供了非常有價(jià)值的信息。基本注釋信息后,是說(shuō)明行(CC)。在CC行中按主題進(jìn)行區(qū)分,其中,F(xiàn)UNCTION說(shuō)明該蛋白質(zhì)的功能,PTM說(shuō)明翻譯后修飾,TISSUE SPECIFICITY說(shuō)明組織專一性,SUBCELLULAR LOCATION說(shuō)明亞細(xì)胞定位,SIM

36、ILARITY,說(shuō)明了與該蛋白質(zhì)序列具有相似性或相關(guān)的某個(gè)蛋白質(zhì)家族,等等。本例中,由這些注釋信息可以知道視紫紅質(zhì)是一種存在于視桿細(xì)胞中的膜可視蛋白,屬于視蛋白家族和1型G蛋白偶聯(lián)受體(GPCR)超家族。在說(shuō)明行后的是數(shù)據(jù)庫(kù)交叉引用(DR)行,提供了與其它生物信息數(shù)據(jù)庫(kù)之間的鏈接,包括一級(jí)序列數(shù)據(jù)庫(kù)、序列模塊數(shù)據(jù)庫(kù)、特殊數(shù)據(jù)庫(kù)等。本例中,該蛋白質(zhì)序列具有與另一個(gè)蛋白質(zhì)序列數(shù)據(jù)庫(kù)PIR的鏈接、與GPCR專門(mén)數(shù)據(jù)庫(kù)的鏈接,以及與蛋白質(zhì)序列

37、模體數(shù)據(jù)庫(kù)PROSITE的鏈接和與蛋白質(zhì)結(jié)構(gòu)域數(shù)據(jù)庫(kù)ProDom的鏈接。在DR行之后,是關(guān)鍵字行(KW)和特征表行(FT)。特征表包括對(duì)該序列特性的進(jìn)一步注釋,包括跨膜螺旋等超二級(jí)結(jié)構(gòu)單元、配體結(jié)合位點(diǎn)、翻譯后修飾位點(diǎn)等。特征表的每一行有一個(gè)關(guān)鍵字(如TRANSMEM)、特征序列的氨基酸殘基位置(如37-61),以及注釋信息的性質(zhì)(如POTENTIAL)等。本例中,視紫紅質(zhì)的跨膜區(qū)域是由計(jì)算機(jī)預(yù)測(cè)得到的,尚未得到實(shí)驗(yàn)證據(jù),因此僅用PO

38、TENTIAL表示。,最后一部分是蛋白質(zhì)序列,即SQ行。為減少存儲(chǔ)空間,氨基酸編碼以單字母表示,每行60個(gè)殘基。SWISS-PROT數(shù)據(jù)庫(kù)中的序列數(shù)據(jù)與蛋白質(zhì)前體對(duì)應(yīng),如果想要獲得成熟蛋白質(zhì)的序列,可以參考特征表所提供的信息,即根據(jù)特征表所提供的信號(hào)區(qū)(SIGNAL),轉(zhuǎn)運(yùn)區(qū)(TRANSIT)或前肽(PROPEP)等信息來(lái)推斷成熟蛋白質(zhì)或多肽序列。此外,CHAIN和PEPTIDE兩個(gè)關(guān)鍵字用來(lái)表示成熟蛋白質(zhì)的位置。TrEMBLNRL

39、-3DMIPS (http://www·mips. biochem. mpg·de/): 由德國(guó)慕尼黑蛋白質(zhì)序列信息中心建立,為PIR-International的成員之一。序列檢索采用FASTA,結(jié)果存于MIPS數(shù)據(jù)庫(kù)中。 在一級(jí)數(shù)據(jù)庫(kù)中,還有一類稱為復(fù)合型蛋白質(zhì)序列數(shù)據(jù)庫(kù)(composite protein sequence database)。這些數(shù)據(jù)庫(kù)的特點(diǎn)是綜合性強(qiáng)、更新快、冗余小,主要代

40、表有:,NRDB NRDB是由NCBI創(chuàng)建的,是NCBI的BLAST搜索程序的默認(rèn)蛋白質(zhì)序列數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)由GenPept(由GenBank 編碼序列自動(dòng)翻譯而成數(shù)據(jù)庫(kù))、PDB序列數(shù)據(jù)庫(kù)、SWISS-PROT數(shù)據(jù)庫(kù)、SPupdate(每周更新的SWISS-PROT數(shù)據(jù)庫(kù))、PIR和GenPeptUpdate(每天更新的GenPept)數(shù)據(jù)庫(kù)復(fù)合而成。因此該數(shù)據(jù)庫(kù)是一個(gè)較完全的,包含最新信息的數(shù)據(jù)庫(kù)。該數(shù)據(jù)庫(kù)中已將那些與某一序列完全

41、相同的序列信息剔除, 因此不包含重復(fù)信息。但嚴(yán)格地說(shuō),盡管NRDB數(shù)據(jù)庫(kù)被稱作非冗余數(shù)據(jù)庫(kù),其仍包含冗余信息。此外,由于該數(shù)據(jù)庫(kù)是通過(guò)簡(jiǎn)單的比較方法生成的,因此會(huì)帶來(lái)一些問(wèn)題,例如,一次數(shù)據(jù)庫(kù)中的錯(cuò)誤序列被引入該數(shù)據(jù)庫(kù)。,OWL OWL是一個(gè)非冗余的蛋白質(zhì)序列數(shù)據(jù)庫(kù),是由Leeds大學(xué)和Warrington的Daresbury實(shí)驗(yàn)室合作開(kāi)發(fā)的(Bleasby等,1994)。OWL數(shù)據(jù)庫(kù)由四個(gè)主要的一級(jí)序列數(shù)據(jù)庫(kù)復(fù)合而成,即SWISS-

42、PROT、PIR、GenBank(由其編碼序列翻譯而成的氨基酸序列)和NRL-3D。在構(gòu)建OWL數(shù)據(jù)庫(kù)的過(guò)程中,考慮到每個(gè)數(shù)據(jù)庫(kù)所包含序列信息的情況,賦予它們不同的優(yōu)先級(jí),SWISS-PROT數(shù)據(jù)庫(kù)的優(yōu)先級(jí)最高。在對(duì)數(shù)據(jù)的處理上,不僅刪除與某一序列完全相同的序列條目,也剔除與某一序列相差個(gè)別氨基酸殘基的序列條目。因此,OWL數(shù)據(jù)庫(kù)是一個(gè)具有較小冗余度的蛋白質(zhì)序列數(shù)據(jù)庫(kù)。盡管如此,與NRDB相同,OWL數(shù)據(jù)庫(kù)也會(huì)有一些錯(cuò)誤,即在該數(shù)據(jù)庫(kù)

43、中仍然包括來(lái)自一次數(shù)據(jù)庫(kù)的錯(cuò)誤序列,例如由GenBank中錯(cuò)誤序列翻譯而得的錯(cuò)誤的氨基酸序列。此外,OWL數(shù)據(jù)庫(kù)更新較慢。英國(guó)的EMBnet國(guó)家節(jié)點(diǎn)上提供有針對(duì)于OWL的BLAST搜索服務(wù)。,MIPSX MIPSX是由德國(guó)Max-Planck研究所創(chuàng)建的復(fù)合數(shù)據(jù)庫(kù)(Mewes等,1998)。MIPSX由以下數(shù)據(jù)庫(kù)整合而成:PIR、MIPS一級(jí)序列數(shù)據(jù)庫(kù)(MIPSOwn)、MIPS/PIR一級(jí)序列數(shù)據(jù)庫(kù)(PIRMOD)、MIPS一級(jí)翻譯

44、序列數(shù)據(jù)庫(kù)(MIPSTrn)、MIPS酵母數(shù)據(jù)庫(kù)(MIPSH)、NRL-3D、SWISS-PROT、EMTrans(由EMBL翻譯得到的序列)、GBTrans(由GenBank翻譯得到的序列)、Kabat和PseqIP。,SWISS-PROT + TrEMBL EBI將SWISS-PROT和TrEMBL數(shù)據(jù)庫(kù)合并,構(gòu)成一個(gè)較全面的并且只有最低限度冗余的數(shù)據(jù)庫(kù)(Bairoch和Apweiler,1998)。用戶可以使用EBI網(wǎng)絡(luò)服務(wù)器上

45、的SRS序列檢索系統(tǒng)查詢SWISS-PROT和TrEMBL數(shù)據(jù)庫(kù)。與上面所提到的數(shù)據(jù)庫(kù)相比,該數(shù)據(jù)庫(kù)只有較少的錯(cuò)誤,但它還稱不上是真正的非冗余的數(shù)據(jù)庫(kù)。據(jù)1997年年中估計(jì),其中包含了SWISS-PROT 和 TrEMBL中的30%的重復(fù)序列。顯然,為了盡可能地減少錯(cuò)誤率和冗余度,需要進(jìn)行大量工作,包括開(kāi)發(fā)專門(mén)的數(shù)據(jù)庫(kù)處理系統(tǒng)等。,3.2.2.2二級(jí)數(shù)據(jù)庫(kù) 二級(jí)數(shù)據(jù)庫(kù)是建立在一級(jí)數(shù)據(jù)庫(kù)基礎(chǔ)上的蛋白質(zhì)信息資源,也稱為蛋白質(zhì)模式數(shù)據(jù)

46、庫(kù)(protein pattern database),主要涉及蛋白質(zhì)基序、指紋等方面的信息。圖3-15示出了基序和指紋的基本概念以及建立二級(jí)數(shù)據(jù)庫(kù)的3類主要方法,即單基序法(single motif methods)、多基序法(multiple motif methods)和全域?qū)ξ慌帕蟹ǎ╢ulldomain alignment methods)。目前,主要的二級(jí)數(shù)據(jù)庫(kù)及其信息來(lái)源(一級(jí)數(shù)據(jù)庫(kù))見(jiàn)表3-1。可以發(fā)現(xiàn),SWISS-P

47、ROT是最基本的蛋白質(zhì)源數(shù)據(jù)庫(kù)。,表3-1若干二級(jí)數(shù)據(jù)庫(kù)的內(nèi)容與信息來(lái)源,*來(lái)自SWISS-PROT,1、構(gòu)建二次數(shù)據(jù)庫(kù)的方法和意義原則:通過(guò)多序列比對(duì),將同源序列收集在一起,以得到保守區(qū)域。這些保守區(qū)域或基序(motifs)通常具有一定生物學(xué)意義,反映了蛋白質(zhì)分子的一些重要結(jié)構(gòu)和功能。定義:進(jìn)行多序列比對(duì)時(shí),由于有多個(gè)親緣關(guān)系不等的序列包括在內(nèi),因此就需要插入一些空位(gap),使比對(duì)序列形成正確匹配。隨著空位的插入,一些具有保守

48、性的匹配區(qū)域形成,這些保守區(qū)域通常有10-20個(gè)氨基酸,并對(duì)應(yīng)著蛋白質(zhì)分子中重要的結(jié)構(gòu)或功能區(qū)域。這些區(qū)域的特性可用來(lái)對(duì)蛋白質(zhì)家族的成員進(jìn)行鑒別。這些區(qū)域通常稱為序列模體,或稱序列模塊、序列片段等。意義:序列模體數(shù)據(jù)庫(kù)可用于蛋白質(zhì)家族的識(shí)別。以一個(gè)未知的序列作為檢測(cè)序列,搜索上述序列模體數(shù)據(jù)庫(kù),來(lái)確定該序列是否具有可能的特殊相似序列模式,由此推斷該序列是否屬于一個(gè)已知蛋白質(zhì)家族。如果一個(gè)蛋白質(zhì)家族的結(jié)構(gòu)和功能已知,搜索模體數(shù)據(jù)庫(kù)可以快

49、速推斷該檢測(cè)序列是否具有該家族的功能。在單一序列模體中,序列信息可以用一個(gè)包含確定和可選殘基的表達(dá)式表示,如C-Y-X2-[DG]-G-X-[ST],這種對(duì)序列模體的描述方式稱做正則表達(dá)式或序列模式。用于描述一組具有保守區(qū)域的序列模體叫序列指紋圖譜,這些序列模體中殘基出現(xiàn)的次數(shù)可以用頻率矩陣表示。由頻率矩陣和打分表可以生成權(quán)重矩陣,由此得到序列模塊(BLOCKS)。利用序列匹配信息和空位信息可以生成序列譜。來(lái)自匹配序列譜的概率模型稱做

50、隱馬氏模型(HMMs),,,,,,,,,,,,,,,,,,,,,,,,,,cydeggiscyedggiscyeedditcyngdggscyrgdgnt,,,C-Y-x2-[DG]-G-x-[ST]正則表達(dá)式,插入,,頻率矩陣,,加權(quán)矩陣,,,圖3-15 建立二級(jí)數(shù)據(jù)庫(kù)的原理與方法 (a),,,,,,,,,,,,,,,,,,,,,,,,,,cydeggiscyedggiscyeedditcyngdggscyrgdg

51、nt,,,XXXXXXXXXXXXXXX,,,,,,XXXXXXXXXXXXXXX,,,XXXXXXXXXXXXXXX,,XXXXXXXXXXXXXXX,,XXXXXXXXXXXXXXX,,,,鑒定矩陣(PRINT),,加權(quán)矩陣(BLOCKS),多基序法,圖3-15 建立二級(jí)數(shù)據(jù)庫(kù)的原理與方法 (b),)精確的正規(guī)表達(dá)(Prosite,,模糊的正規(guī)表達(dá)(IDENTIFY),全域?qū)ξ慌帕蟹?概形,,隱馬爾可夫模型(P

52、fam),單基序法,序列模體,,,序列指紋圖譜,2. 二次數(shù)據(jù)庫(kù)介紹PROSITE: PROSITE數(shù)據(jù)庫(kù)是第一個(gè)序列模體數(shù)據(jù)庫(kù),由瑞士生物信息學(xué)研究所維護(hù)。開(kāi)發(fā)PROTSITE數(shù)據(jù)庫(kù)的依據(jù)是:在蛋白質(zhì)家族中,通過(guò)多序列對(duì)比方法,可以由若干同源蛋白質(zhì)序列得到保守的序列模體區(qū)域,這些序列模體區(qū)域具有相同的特性,通常具有重要的生物學(xué)功能位點(diǎn),如酶的活性位點(diǎn)、配體或金屬的結(jié)合位點(diǎn)等。因此,PROSITE數(shù)據(jù)庫(kù)實(shí)際上是蛋白質(zhì)序列功能位點(diǎn)數(shù)據(jù)

53、庫(kù),通過(guò)搜索序列模體數(shù)據(jù)庫(kù),可以幫助確定一個(gè)新蛋白質(zhì)序列屬于哪一個(gè)蛋白質(zhì)家族,或者該序列可能包含何種結(jié)構(gòu)域或功能位點(diǎn)。PROSITE數(shù)據(jù)庫(kù)用正則表達(dá)式(regular expression)表示序列模式,構(gòu)建PROSITE數(shù)據(jù)庫(kù)時(shí),采用了多序列比對(duì)和保守區(qū)域人工識(shí)別的方法。首先,通過(guò)多序列比對(duì)得到一定的候選序列模體,并把這些序列模體中的信息簡(jiǎn)化為具有一定規(guī)則的表達(dá)式,即正則表達(dá)式。并以此為基礎(chǔ),對(duì)SWISS-PROT數(shù)據(jù)庫(kù)進(jìn)行搜索,得

54、到的結(jié)果再經(jīng)人工檢驗(yàn)以確定該序列模體匹配程度的優(yōu)劣。,有時(shí),某個(gè)單一的序列模體不能有效地用來(lái)確定一個(gè)蛋白質(zhì)家族的特性。在這種情況下,就要使用另外的模體來(lái)確定該家族所具有的保守特性。而要想對(duì)一個(gè)蛋白質(zhì)家族的特性進(jìn)行鑒別,就要盡可能地找到該家族所包含的一系列序列模體。(1)PROSITE數(shù)據(jù)庫(kù)結(jié)構(gòu)PROSITE數(shù)據(jù)庫(kù)實(shí)際上包括兩個(gè)子庫(kù),一個(gè)存放正則表達(dá)式數(shù)據(jù),即PROSITE,另一個(gè)存放文獻(xiàn)摘要等文字說(shuō)明,即PROSITE-DOC。PR

55、OSITE子庫(kù)的格式與SWISS-PROT數(shù)據(jù)庫(kù)格式類似,使用“ ID” , “AC”等雙字母識(shí)別字;而PROSITEDOC則以文本文件格式提供了對(duì)蛋白質(zhì)家族特性的描述,并且給出了序列模體所具有的生物學(xué)作用及其相關(guān)的參考書(shū)目。,上面提到,PROSITE數(shù)據(jù)庫(kù)的結(jié)構(gòu)與SWISS-PROT一樣,每一個(gè)條目都包含了標(biāo)識(shí)符ID和編號(hào)AC,其中ID是該蛋白質(zhì)家族名稱的縮寫(xiě),而編號(hào)則以字符和數(shù)字表示,如PS00238。 DE行是對(duì)蛋白質(zhì)家族的簡(jiǎn)單描

56、述,PA行是該數(shù)據(jù)條目的核心,列出該蛋白質(zhì)家族的正則表達(dá)式,即序列模式(pattern)。隨后的NR行則給出構(gòu)建該序列模式所用的SWISS-PROT數(shù)據(jù)庫(kù)的版本以及技術(shù)細(xì)節(jié),包括具有這種序列模體的蛋白質(zhì)數(shù)目,以及陽(yáng)性、假陽(yáng)性、假陰性等參數(shù)。了解這些信息,對(duì)正確使用PROSITE數(shù)據(jù)庫(kù)十分重要。若某個(gè)條目具有大量假陽(yáng)性和假陰性,則表明該序列模式欠佳。圖3.3所示例子中NR行提供的信息知道,這個(gè)模式來(lái)自于第46版SWISS-PROT數(shù)據(jù)庫(kù),

57、包含164201個(gè)蛋白序列,有192個(gè)序列與該模式匹配,其中191個(gè)為陽(yáng)性的,是一個(gè)較好的模式。例子1例子2注釋行(CC)提供了該蛋白質(zhì)家族的分類學(xué)信息,本例中為“真核生物”;給出這一模式在蛋白質(zhì)中出現(xiàn)的次數(shù),本例為2;同時(shí)給出功能位點(diǎn)的簡(jiǎn)單說(shuō)明,例如本例中結(jié)合位點(diǎn)的第5個(gè)殘基。DR行是與SWISS-PROT交叉的鏈接,列出具有該序列,模式的SWISS-PROT標(biāo)識(shí)符ID,其中T表示陽(yáng)性匹配。P表示部分匹配。若有假陽(yáng)性或假陰性匹配,則

58、分別用F和N表示,與NR行中給出的信息相對(duì)應(yīng)。3D行則是與蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫(kù)PDB的交叉鏈接。最后的DO行是與相應(yīng)的PROSITEDOC的鏈接。PROSITEDOC數(shù)據(jù)庫(kù)的結(jié)構(gòu)比較簡(jiǎn)單,每一條目除采用PDOC后跟數(shù)字,如PDOC00211格式標(biāo)識(shí)外,也列出相應(yīng)的PROSITE數(shù)據(jù)庫(kù)ID號(hào),以便交叉引用。其余部分則是對(duì)該蛋白質(zhì)家族的描述,包括序列模式的說(shuō)明,它們的生物學(xué)意義,并列出參考文獻(xiàn)的出處(圖3.4)。許多數(shù)據(jù)庫(kù)查詢系統(tǒng)SRS

59、提供了對(duì)PROSITE數(shù)據(jù)庫(kù)的檢索,而瑞士蛋白質(zhì)分析專家系統(tǒng)ExPASy則以表格方式列出查詢結(jié)果。,PRINTSPROSITE數(shù)據(jù)庫(kù)的構(gòu)建基于單個(gè)序列模體,而分析序列比對(duì)結(jié)果可以發(fā)現(xiàn),許多蛋白質(zhì)家族的特性是由幾個(gè)保守的序列模體共同確定。利用蛋白質(zhì)分子中所有序列模體鑒別該蛋白質(zhì)家族的特性,則是構(gòu)建PRINTS序列指紋(fingerprint)圖譜數(shù)據(jù)庫(kù)的基本出發(fā)點(diǎn)。PRINTS數(shù)據(jù)庫(kù)起初由英國(guó)倫敦大學(xué)University College

60、 (UCL)的生物化學(xué)和分子生物學(xué)系開(kāi)發(fā),現(xiàn)在轉(zhuǎn)由曼徹斯特(Manchester)大學(xué)維護(hù)。顯然,利用多個(gè)序列模式共同識(shí)別蛋白質(zhì)家族的特性,比只用單個(gè)序列模式具有更好的識(shí)別率。例如,某個(gè)蛋白質(zhì)序列不能與指紋圖譜中所有序列模體匹配,但卻能與其中的大部分序列模體匹配,則有可能為我們提供一些信息,對(duì)該蛋白質(zhì)分子的特性作出可能的推測(cè)。PRINTS數(shù)據(jù)庫(kù)列出局部多序列比對(duì)所得結(jié)果,比對(duì)時(shí)不允許有空位的插入,也不考慮不同殘基的權(quán)重。因此,PRIN

61、TS序列指紋圖譜數(shù)據(jù)庫(kù)的構(gòu)建方法與PROSITE數(shù)據(jù)庫(kù)采用的正則表達(dá)式方法不同。在構(gòu)建序列指紋圖譜過(guò)程中,通過(guò)多序列比對(duì)得到一組序列模體種子,并對(duì)這些種子進(jìn)行,分析和篩選。然后通過(guò)反復(fù)的數(shù)據(jù)庫(kù)搜索,找出那些保守的序列模體。最后檢驗(yàn)?zāi)囊粋€(gè)序列與序列指紋圖譜中的所有序列模體匹配,如果存在比最初對(duì)比結(jié)果多得多的匹配,那么這些新增的序列信息就要被添加到序列模體中;然后重新開(kāi)始搜索數(shù)據(jù)庫(kù),反復(fù)進(jìn)行上述迭代過(guò)程,直到?jīng)]有新的序列指紋圖譜產(chǎn)生。最后,

62、結(jié)果被納入到PRINTS數(shù)據(jù)庫(kù)中。PRINTS數(shù)據(jù)庫(kù)的構(gòu)建,最初基于非冗余蛋白質(zhì)序列數(shù)據(jù)庫(kù)OWL,后來(lái)則以SWISS-PROT和SP-TrEMBL為主。圖3.5所示是PRINTS數(shù)據(jù)庫(kù)中一個(gè)條目,主要包括三方面信息。最上面的部分[圖3.5(a)]給出該序列指紋圖譜的代碼和名稱,通常用該蛋白質(zhì)家族名稱縮寫(xiě)作代碼,如本例中的OPSIN。PRINTS數(shù)據(jù)庫(kù)中的條目有一個(gè)惟一的編號(hào),以PR后跟數(shù)字(如PR00237)的格式表示。此外,給出條目

63、中序列模體個(gè)數(shù),本例中是3。日期行中給出該條目收入數(shù)據(jù)庫(kù)和最近更新的時(shí)間。此外,還給出了與其他生物學(xué)數(shù)據(jù)庫(kù)的交叉引用,可以使用戶對(duì)該蛋白質(zhì)家族的其他信息有所了解。最后提供相關(guān)參考書(shū)目和對(duì)該家族特性的簡(jiǎn)要介紹,以及如何構(gòu)建指紋圖譜的方法等。有些條目還提供對(duì)這些保守的序列模體的結(jié)構(gòu)和功能的描述。,第二部分[圖3.5(b)]給出組成該序列指紋圖譜的序列模體的參數(shù),包括用來(lái)構(gòu)建該指紋圖譜的序列數(shù)、每個(gè)序列模體的匹配情況等。本例中有73個(gè)序列與指

64、紋圖譜中所有序列模體匹配,有一個(gè)序列與兩個(gè)序列模體匹配。并用表格方式列出有關(guān)信息。本例所列信息表明一個(gè)序列與序列模體1不完全匹配。最后一部分[圖3.5(c)]給出用于生成序列指紋圖譜的種子序列模體,以及通過(guò)數(shù)據(jù)庫(kù)搜索生成的最終序列模體(為節(jié)省篇幅,圖中沒(méi)列出)。每一個(gè)序列模體都用該指紋圖譜條目的代碼標(biāo)識(shí),后跟一個(gè)數(shù)字,表示該序列模體屬于該指紋圖譜的第幾個(gè)。本例中OPSIN指紋圖譜的三個(gè)序列模體分別被命名為OPSIN1,OPSIN2和O

65、PSIN3。同時(shí)給出每個(gè)序列模體的長(zhǎng)度和簡(jiǎn)單說(shuō)明,如迭代次數(shù)。作為種子的初始序列模體,迭代數(shù)為1。該部分還列出每個(gè)序列模體和組成該序列模體的序列片段在蛋白質(zhì)序列數(shù)據(jù)庫(kù)中的識(shí)別號(hào)ID,本例所示為最初進(jìn)行比對(duì)時(shí)SWISS-PROT數(shù)據(jù)庫(kù)中序列條目的識(shí)別號(hào)。同時(shí)列出它們?cè)谠夹蛄兄械臍埢恢?,以及該序列片段與前一個(gè)指紋圖譜間的距離,即序列模體中相隔的氨基酸殘基數(shù)。對(duì)第一個(gè)序列模體來(lái)說(shuō),該距離值就是該序列模體與N一末端的距離。,與PROSITE

66、不同,PRINTS數(shù)據(jù)庫(kù)存放了原始的序列信息。這就意味著可以采用許多不同的打分方法來(lái)獲得序列模體,并可以給這些序列模體賦予不同的打分分?jǐn)?shù)值。因此,PRINTS數(shù)據(jù)庫(kù)可以用來(lái)進(jìn)一步構(gòu)建三次數(shù)據(jù)庫(kù)(tertiary database)。PRINTS數(shù)據(jù)庫(kù)可以通過(guò)DbBrowser生物信息學(xué)網(wǎng)絡(luò)服務(wù)器來(lái)查詢,1999年,該數(shù)據(jù)庫(kù)從倫敦大學(xué)轉(zhuǎn)到曼徹斯特大學(xué),由曼徹斯特大學(xué)生物信息學(xué)教學(xué)研究小組維護(hù)。PROSITE和PRINTS不僅提供了序列

67、模式信息,而且提供了蛋白質(zhì)家族特性以及有關(guān)結(jié)構(gòu)功能等文獻(xiàn)信息。這些信息對(duì)生物學(xué)家來(lái)說(shuō)非常重要,因?yàn)樗麄儾粌H想找出未知序列是否與已知序列模體匹配,而且需要了解由這些序列模體構(gòu)成的蛋白質(zhì)家族的生物學(xué)意義。而下面幾種序列模塊數(shù)據(jù)庫(kù)均由計(jì)算機(jī)程序自動(dòng)生成,因此,很少或沒(méi)有提供對(duì)蛋白質(zhì)家族的說(shuō)明,其中一些則引用了PRINTS和PROSITE數(shù)據(jù)庫(kù)的信息。,BLOCKS鑒于利用正則表達(dá)式對(duì)序列模體進(jìn)行識(shí)別存在著一定局限性,有必要采用其他方法提高識(shí)

68、別率,構(gòu)建其他序列模體數(shù)據(jù)庫(kù)。BLOCKS數(shù)據(jù)庫(kù)就是其中的一個(gè)。它是以PROSITE數(shù)據(jù)庫(kù)中蛋白質(zhì)家族為基礎(chǔ)創(chuàng)建的,由美國(guó)西雅圖Fred Hutchinson癌癥研究中心(FHCRC)的Henikoff夫婦建立和維護(hù)。該數(shù)據(jù)庫(kù)中序列模塊(block)是通過(guò)自動(dòng)檢測(cè)每個(gè)蛋白質(zhì)家族中高度保守區(qū)域而產(chǎn)生。構(gòu)建該數(shù)據(jù)庫(kù)的初始階段,首先找出三個(gè)保守的氨基酸殘基,它們不一定連續(xù)。并以此為基礎(chǔ)對(duì)SWISS-PROT數(shù)據(jù)庫(kù)進(jìn)行搜索,找出相似性序列片段,

69、用來(lái)構(gòu)建一組無(wú)空位的局部多序列比對(duì)模塊,并用兩個(gè)分值作為每個(gè)模塊中各序列片段間相似性程度的指標(biāo)。其中第一個(gè)分值為真陰性占99.5%時(shí)對(duì)應(yīng)的閾值,第二個(gè)是真陽(yáng)性匹配分值的中值。為比較不同序列模塊的識(shí)別率,將第二個(gè)分值乘以1000再除以第一個(gè)分值,進(jìn)行歸一化處理。這個(gè)歸一化的分值定義稱為強(qiáng)度(strength)。(1)BLOCKS數(shù)據(jù)庫(kù)結(jié)構(gòu)圖3.6列出一個(gè)典型的BLOCKS數(shù)據(jù)庫(kù)序列模塊條目。該數(shù)據(jù)庫(kù)結(jié)構(gòu)與PROSITE數(shù)據(jù)庫(kù)一致,即每

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論