

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、Bioinformatics,生物信息學(xué),劉 紅,liuhongseminar@126.com,復(fù)習(xí)內(nèi)容第一章要點(diǎn),生物信息學(xué)(Bioinformatics): 生物信息學(xué)是一門(mén)交叉學(xué)科,它包含了生物信息的獲取、處理、存儲(chǔ)、分發(fā)、分析和解釋在內(nèi)的所有方面。他綜合的應(yīng)用數(shù)學(xué)、計(jì)算機(jī)科學(xué)和生物學(xué)的各種工具 ,來(lái)闡明和理解大量數(shù)據(jù)中包含的生物學(xué)意義。人類基因組計(jì)劃(human genome project,HGP) 規(guī)
2、模模宏大的科學(xué)計(jì)劃,其旨在測(cè)定組成人類染色體(指單倍體)中所包含的30億個(gè)核苷酸序列的堿基組成,從而繪制下人類基因組圖譜,并且辨識(shí)并呈現(xiàn)其上的所有基因及其序列,進(jìn)而破譯人類遺傳信息。人類基因組計(jì)劃是人類為了解自身的奧秘所邁出的重要一步,是繼曼哈頓計(jì)劃和阿波羅登月計(jì)劃之后,人類科學(xué)史上的又一個(gè)偉大工程。,,Sanger 測(cè)序法又稱 雙脫氧末端終止法。 Sanger法是根據(jù)核苷酸在某一固定的點(diǎn)開(kāi)始,隨機(jī)在某一個(gè)特定的堿基處終止,并
3、且在每個(gè)堿基后面進(jìn)行熒光標(biāo)記,產(chǎn)生以A、T、C、G結(jié)束的四組不同長(zhǎng)度的一系列核苷酸,然后在尿素變性的PAGE膠上電泳進(jìn)行檢測(cè),從而獲得可見(jiàn)的DNA堿基序列。 Sanger法測(cè)序的原理就是,每個(gè)反應(yīng)含有所有四種脫氧核苷酸三磷酸(dNTP)使之?dāng)U增,并混入限量的一種不同的雙脫氧核苷三磷酸(ddNTP)使之終止。由于ddNTP缺乏延伸所需要的3‘-OH基團(tuán),使延長(zhǎng)的寡聚核苷酸選擇性地在G、A、T或C處終止,終止點(diǎn)由反應(yīng)中相應(yīng)的雙脫
4、氧而定。每一種dNTPs和ddNTPs的相對(duì)濃度可以調(diào)整,使反應(yīng)得到一組長(zhǎng)幾個(gè)至千以上個(gè),相差一個(gè)堿基一系列片斷。它們具有共同的起始點(diǎn),但終止在不同的的核苷酸上,可通過(guò)高分辨率變性凝膠電泳分離大小不同的片段,凝膠處理后可用X-光膠片放射自顯影或非同位素標(biāo)記進(jìn)行檢測(cè)。,鳥(niǎo)槍法序列測(cè)定(Shotgun sequencing) 是一種廣泛使用的為長(zhǎng)DNA測(cè)序的方法,比傳統(tǒng)的定序法快速,但精確度較差。曾經(jīng)使用于塞雷拉基因組(Celera
5、 Genomics)公司所主持的人類基因組計(jì)劃。 原理:將基因組打斷為數(shù)百萬(wàn)個(gè)DNA片斷,然后用一定的算法將片斷的序列信息重新整合在一起,從而得到整個(gè)基因組序列。為了提高這一方法的效率,1980年代,測(cè)序和片斷信息整合達(dá)到了自動(dòng)化。這一方法雖然已被用于序列長(zhǎng)達(dá)6百萬(wàn)個(gè)堿基對(duì)的細(xì)菌基因組測(cè)序,但對(duì)于人類基因組中3千萬(wàn)個(gè)堿基對(duì)的序列測(cè)定,這一技術(shù)能否成功在當(dāng)時(shí)還未有定論。,生物信息學(xué)數(shù)據(jù)庫(kù),內(nèi)容提綱,生物信息計(jì)算機(jī)基礎(chǔ)知識(shí)簡(jiǎn)介分
6、子生物信息數(shù)據(jù)庫(kù)生物信息數(shù)據(jù)存儲(chǔ)格式生物信息的檢索和提交,,生物信息計(jì)算機(jī)基礎(chǔ)知識(shí)簡(jiǎn)介,Linux 系統(tǒng)BioperlMySQLDBMS DBSDM,,Linux 系統(tǒng),Linux 系統(tǒng) 免費(fèi)使用和自由傳播的類UNIX操作系統(tǒng)。 1991,芬蘭赫爾辛基大學(xué) Linus Torvalds 命名為L(zhǎng)inux 特點(diǎn): 1. 開(kāi)放性 2. 多用戶
7、3. 多任務(wù) 多任務(wù)運(yùn)行時(shí)效率高于Windows系統(tǒng),,Bioperl,正式開(kāi)發(fā)于1995年,開(kāi)源項(xiàng)目,基于Perl語(yǔ)言開(kāi)發(fā),由OBF(Open Bioinformatics Foundation)支持。專門(mén)用于生物信息學(xué)、基因組學(xué)以及其他生命科學(xué)領(lǐng)域的工具和函數(shù)模塊集,超過(guò)1000個(gè)模塊。www.bioperl.org,,數(shù)據(jù)庫(kù)管理系統(tǒng)(database management system, DBMS)
8、 對(duì)數(shù)據(jù)庫(kù)進(jìn)行管理的系統(tǒng)軟件,提供DB的建立、查詢、更新以及各種數(shù)據(jù)控制功能。 數(shù)據(jù)庫(kù)系統(tǒng)(database system, DBS) 采用數(shù)據(jù)庫(kù)技術(shù)的計(jì)算機(jī)系統(tǒng)。DBS是計(jì)算機(jī)軟件/硬件、數(shù)據(jù)資源和數(shù)據(jù)庫(kù)管理員共同組成的系統(tǒng)。 數(shù)據(jù)模型(data model) 數(shù)據(jù)庫(kù)結(jié)構(gòu)和語(yǔ)義的一種抽象描述。由數(shù)據(jù)的結(jié)構(gòu)、數(shù)據(jù)操作和完整性約束三部分組成。,生物信息學(xué)數(shù)據(jù)庫(kù)產(chǎn)生的動(dòng)力,生物分子數(shù)據(jù)的高速增長(zhǎng) 有效的
9、存儲(chǔ) 計(jì)算機(jī)技術(shù)迅速發(fā)展 數(shù)據(jù)存貯技術(shù)的成熟 互聯(lián)網(wǎng) 生物信息分析是現(xiàn)代生物學(xué)研究的基礎(chǔ) 及時(shí)的獲取 高效的利用 分子生物學(xué)數(shù)據(jù),,(1)時(shí)間性 新的數(shù)據(jù)可以及時(shí)在互聯(lián)網(wǎng)獲取(2)注釋 對(duì)每個(gè)序列有一致的、詳細(xì)的說(shuō)明信息 (3)支撐數(shù)據(jù) 相關(guān)的研究背景,原始數(shù)據(jù)。文獻(xiàn)支持(4)數(shù)據(jù)質(zhì)量 數(shù)據(jù)庫(kù)管理者對(duì)數(shù)據(jù)質(zhì)量進(jìn)行核查(5)集成性
10、 三種基本數(shù)據(jù)(核酸、蛋白、蛋白結(jié)構(gòu))的集成。 有效提高研究者的研究效率,生物信息數(shù)據(jù)庫(kù)應(yīng)滿足的主要需求,,現(xiàn)代生物信息數(shù)據(jù)庫(kù)的特征(*),,(1)數(shù)據(jù)更新速度快,數(shù)據(jù)量呈指數(shù)增長(zhǎng)趨勢(shì) (2)數(shù)據(jù)庫(kù)使用頻率快速增長(zhǎng),重要性日益被科研工作者所認(rèn)識(shí) (3)數(shù)據(jù)庫(kù)的復(fù)雜程度不斷增加(4)數(shù)據(jù)庫(kù)網(wǎng)絡(luò)化 互聯(lián)網(wǎng)上訪問(wèn);公共數(shù)據(jù)庫(kù)之間相互鏈接;集成數(shù)據(jù)庫(kù)系統(tǒng)。(5)面向應(yīng)用。如提供在
11、線分析工具。(7)先進(jìn)的計(jì)算機(jī)硬件和軟件的配置,http://www.ncbi.nlm.nih.gov/genbank/genbankstats.html,GenBank 堿基數(shù)每年增長(zhǎng)幅度約為100% !,分子生物數(shù)據(jù)庫(kù)的分類,,,一級(jí)數(shù)據(jù)庫(kù)概念:數(shù)據(jù)直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過(guò)簡(jiǎn)單的歸類整理和注釋 包含: 基因組數(shù)據(jù)庫(kù)、 核酸序列數(shù)據(jù)庫(kù)、 蛋白一級(jí)結(jié)構(gòu)序列數(shù)據(jù)庫(kù)、
12、 生物大分子三維空間結(jié)構(gòu)數(shù)據(jù)庫(kù)(主要為蛋白質(zhì)),二級(jí)數(shù)據(jù)庫(kù)概念:對(duì)原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定的應(yīng)用目標(biāo)而建立的。包含:種類繁多:真核生物啟動(dòng)子序列庫(kù) EPD ;功能模體(motif)數(shù)據(jù)庫(kù) PROSITE,數(shù)據(jù)直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過(guò)簡(jiǎn)單的歸類整理和注釋。,一級(jí)數(shù)據(jù)庫(kù),,基因組數(shù)據(jù)庫(kù),基因組數(shù)據(jù)庫(kù)的主體是模式生物基因組數(shù)據(jù)庫(kù),此外還包括染色體,
13、基因突變,遺傳疾病,分類學(xué),比較基因組,基因表達(dá)和調(diào)控,放射雜交,基因圖譜等各種數(shù)據(jù)庫(kù)。,,NCBI 基因組數(shù)據(jù)庫(kù) Genome http://www.ncbi.nlm.nih.gov/sites/entrez?db=genome,Map view http://www.ncbi.nlm.nih.gov/projects/mapview/,生物基因組計(jì)劃信息,,基因組數(shù)據(jù)庫(kù)(GDB),創(chuàng)建:1990 Johns Hopkins
14、大學(xué)創(chuàng)建目標(biāo):構(gòu)建關(guān)于人類基因組的百科全書(shū),除了構(gòu)建基因組圖譜之外,開(kāi)發(fā)了描述 序列水平的基因組內(nèi)容的方法:包括序列變異和其它對(duì)功能 和表型 的描述 內(nèi)容:人 類 基 因 組 區(qū) 域 ( 包 括 基 因 、 克 隆 、 amplimers PCR 標(biāo) 記 、 斷 點(diǎn)breakpoints、細(xì)胞遺傳標(biāo)記 cytogenetic markers、易碎位點(diǎn) fragile sites、EST 序列、綜合區(qū)域 syn
15、dromic regions、contigs 和重復(fù)序列);人類基因組圖譜(包括細(xì)胞遺傳圖譜、連接圖譜、放射性雜交圖譜、content contig 圖譜和綜合圖譜等);人類基因組內(nèi)的變異(包括突變和多態(tài)性,加上等位基因頻率數(shù)據(jù))。,,http://www.gdb.org國(guó)內(nèi)鏡像是:http://gdb.pku.edu.cn/gdb/,EMBL-EBI和Sanger研究所共同開(kāi)發(fā)的一個(gè)系統(tǒng)。Ensembl產(chǎn)生并維護(hù)關(guān)于各種
16、模式生物基因組的自動(dòng)注釋。人類基因組、小鼠基因組、大鼠基因組、黑猩猩基因組等。Ensembl試圖跟蹤這些基因組的序列片段,并將序列片段組裝成單個(gè)長(zhǎng)序列,進(jìn)而分析這些經(jīng)過(guò)組裝的DNA序列,搜索其中的基因,發(fā)現(xiàn)生物學(xué)家或醫(yī)學(xué)工作者感興趣的序列。Ensembl所用的基因預(yù)測(cè)程序?yàn)镚enScan。單核苷酸多態(tài)性(SNP)、重復(fù)序列與其它序列高度相似(或同源)的序列。Ensembl 數(shù)據(jù)庫(kù)還提供疾病、細(xì)胞等方面的信息,并且提供
17、數(shù)據(jù)搜索、數(shù)據(jù)下載、統(tǒng)計(jì)分析等服務(wù)。,綜合基因組數(shù)據(jù)庫(kù)(Ensembl Genome),,Ensembl (http://www.ensembl.org/),,,,模式生物基因組的數(shù)據(jù)庫(kù),酵母,大腸桿菌,果蠅,線蟲(chóng),老鼠,,,AceDB 線蟲(chóng)基因數(shù)據(jù)庫(kù),是數(shù)據(jù)庫(kù)也是靈活和通用數(shù)據(jù)庫(kù)管理系統(tǒng)Sanger中心已將其用于線蟲(chóng)和人類基因的瀏覽和檢索庫(kù)內(nèi)資源包括:限制性圖譜、基因結(jié)構(gòu)信息、質(zhì)粒圖譜、參考文獻(xiàn)等。,秀麗線蟲(chóng)Caen
18、orhabditis elegans一種透明的、生活在海灘泥沙中的小蟲(chóng)細(xì)胞數(shù)目一定:成蟲(chóng)細(xì)胞數(shù)目只有959個(gè),其中包括302個(gè)神經(jīng)元; 有6條染色體,1998,長(zhǎng)9.7Mb,序列數(shù)據(jù)庫(kù),,主要核酸序列數(shù)據(jù)庫(kù): GenBank、EMBL、 DDBJ主要蛋白質(zhì)序列數(shù)據(jù)庫(kù):Swissprot, PIR,核酸序列數(shù)據(jù)庫(kù),美國(guó)國(guó)家生物技術(shù)信息中心的GenBank http://www.ncbi.nlm.nih.gov/Web/Ge
19、nbank/index.html 歐洲分子生物學(xué)實(shí)驗(yàn)室的EMBL http://www.embl-heidelberg.de 日本遺傳研究所的DDBJ http://www.ddbj.nig.ac.jp/,,1979年開(kāi)始建設(shè),1982年正式運(yùn)行 美國(guó)國(guó)家生物信息中心負(fù)責(zé)維護(hù) Banson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7,
20、GenBank數(shù)據(jù)庫(kù),,GenBank數(shù)據(jù)庫(kù)的數(shù)據(jù)來(lái)源有三種:直接來(lái)源于測(cè)序工作者提交的序列與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換的數(shù)據(jù)美國(guó)專利局提供的專利數(shù)據(jù),1980年開(kāi)始建設(shè),1982年正式運(yùn)行 歐洲主要的核酸序列收集單位歐洲生物信息中心(EBI),德國(guó)海德堡站點(diǎn)負(fù)責(zé)維護(hù),EMBL數(shù)據(jù)庫(kù),,EMBL數(shù)據(jù)庫(kù)的數(shù)據(jù)來(lái)源有三種:直接來(lái)源于測(cè)序工作者提交的序列(Sanger測(cè)序中心)與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換的數(shù)據(jù)歐洲專利局提供的專利數(shù)據(jù),日
21、本1984年開(kāi)始建立,并于1987年正式服務(wù)。 亞洲唯一的核酸序列數(shù)據(jù)庫(kù)生物信息學(xué)中心和日本國(guó)家遺傳研究所的DNA數(shù)據(jù)庫(kù)(CIB-DDBJ),共同組建。,DDBJ數(shù)據(jù)庫(kù),,DDBJ數(shù)據(jù)庫(kù)的數(shù)據(jù)來(lái)源有二種:90%直接來(lái)源于日本研究者提交的序列與其它數(shù)據(jù)機(jī)構(gòu)協(xié)作交換的數(shù)據(jù),在短短的約18年間,數(shù)據(jù)量增長(zhǎng)了近十萬(wàn)倍,公共序列數(shù)據(jù)庫(kù)(Public Sequence Database),1988 年3個(gè)數(shù)據(jù)庫(kù)達(dá)成協(xié)議,組成合作聯(lián)合體。它們
22、每天交換信息,并對(duì)數(shù)據(jù)庫(kù) DNA 序列記錄的統(tǒng)一標(biāo)準(zhǔn)達(dá)成一致。 每個(gè)機(jī)構(gòu)負(fù)責(zé)收集來(lái)自不同地理分布的數(shù)據(jù) (EMBL 負(fù)責(zé)歐洲, GenBank 負(fù)責(zé)美洲, DDBJ負(fù)責(zé)亞洲等) ,將所有信息匯總在一起,共同享有并向世界開(kāi)放,故這 3 個(gè)數(shù)據(jù)庫(kù)又被稱為公共序列數(shù)據(jù)庫(kù),,GenBank,DDBJ,EMBL,,,,蛋白質(zhì)序列數(shù)據(jù)庫(kù),重要蛋白質(zhì)序列數(shù)據(jù)庫(kù):SWISS-PROT(歐洲)PIR(美國(guó)),,蛋白質(zhì)序列數(shù)據(jù)庫(kù),SWISS
23、-PROT和PIR是國(guó)際上二個(gè)主要的蛋白質(zhì)序列數(shù)據(jù)庫(kù),目前這二個(gè)數(shù)據(jù)庫(kù)在EMBL和GenBank數(shù)據(jù)庫(kù)上均建立了鏡像 (mirror) 站點(diǎn)。SWISS-PROT數(shù)據(jù)庫(kù)包括了從EMBL翻譯而來(lái)的蛋白質(zhì)序列,這些序列經(jīng)過(guò)檢驗(yàn)和注釋。PIR數(shù)據(jù)庫(kù)的數(shù)據(jù)由美國(guó)家生物技術(shù)信息中心(NCBI)翻譯自GenBank的DNA序列。,,二種蛋白質(zhì)數(shù)據(jù)庫(kù)種類和特點(diǎn),,SWISS-PROT 蛋白數(shù)據(jù)庫(kù),1986創(chuàng)建 瑞士日內(nèi)瓦大學(xué)醫(yī)學(xué)生物化學(xué)系
24、和歐洲生物信息學(xué)研究所(EBI)合作維護(hù) 在EMBL和GenBank數(shù)據(jù)庫(kù)上均建立了鏡像站點(diǎn); 數(shù)據(jù)庫(kù)包括了從EMBL翻譯而來(lái)的蛋白質(zhì)序列 這些序列經(jīng)過(guò) 檢驗(yàn)和注釋; 數(shù)據(jù)記錄包括兩部分: 序列 注釋: 結(jié)構(gòu)域、功能位點(diǎn)、跨膜區(qū)域、二硫鍵位置、翻譯后的修飾 數(shù)據(jù)存在滯后性,,http://cn.expasy.org/sprot,PIR 蛋白數(shù)據(jù)庫(kù),PIR
25、(Protein information resource) 1. 由美國(guó)NCBI翻譯自GenBank的DNA序列(1984年); 2. 在EMBL和GenBank數(shù)據(jù)庫(kù)上均建立了鏡像站點(diǎn); 3. 數(shù)據(jù)依據(jù)注釋的質(zhì)量分為4類。,,PIR數(shù)據(jù)庫(kù)的分類情況,http://www-nbrf.georgetown.edu/,PIR 數(shù)據(jù)庫(kù)的特點(diǎn),,幫助研究者鑒別和解釋蛋白質(zhì)序列信息,研究
26、分子進(jìn)化、功能基因組。它是一個(gè)全面的、經(jīng)過(guò)注釋的、非冗余的蛋白質(zhì)序列數(shù)據(jù)庫(kù)。 所有序列數(shù)據(jù)都經(jīng)過(guò)整理,超過(guò)99%的序列已按蛋白質(zhì)家族分類,一半以上還按蛋白質(zhì)超家族進(jìn)行了分類。,生物大分子三維結(jié)構(gòu)數(shù)據(jù)庫(kù),蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(kù) PDB 蛋白質(zhì)分類數(shù)據(jù)庫(kù) SCOP和CATH,,PDB蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù),PDB,Protein Data Bank,1. 目前最主要的蛋白質(zhì)分子結(jié)構(gòu)數(shù)據(jù)庫(kù); 2. 1970年代建立,美國(guó)Bro
27、okhaven國(guó)家實(shí)驗(yàn)室維護(hù)管理; 3. 1988年,由美國(guó)RCSB(research collaboratory for structural biology)管理; 4. 以文本格式存放數(shù)據(jù),包括原子坐標(biāo)、物種來(lái)源、測(cè)定方法、提交者信息、一級(jí)結(jié)構(gòu)、二級(jí)結(jié)構(gòu)等; 5. PDBsum數(shù)據(jù)庫(kù):PDB注釋信息綜合數(shù)據(jù)庫(kù),具有檢索、分析、可視化的功能。,,http://www.rcsb.org/pdb,http:
28、//www.ebi.ac.uk/thornton-rv/databases/pdbsum/,蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(kù),SCOP (Structural Classification of Proteins)CATH( Class, Architecture, Topology, Homology),,蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(kù)SCOP,描述了結(jié)構(gòu)和進(jìn)化關(guān)系。SCOP數(shù)據(jù)庫(kù)從不同層次對(duì)蛋白質(zhì)結(jié)構(gòu)進(jìn)行分類,以反映它們結(jié)構(gòu)和進(jìn)化的相關(guān)性。第一個(gè)分
29、類層次為家族,通常將序列相似性程度在30%以上的蛋白質(zhì)歸入同一家族,有比較明確的進(jìn)化關(guān)系。超家族:序列相似性較低,結(jié)構(gòu)和功能特性表明它們有共同的進(jìn)化起源,將其視作超家族。折疊類型:無(wú)論有無(wú)共同的進(jìn)化起源,只要二級(jí)結(jié)構(gòu)單元具有相同的排列和拓?fù)浣Y(jié)構(gòu),即認(rèn)為這些蛋白質(zhì)具有相同的折疊方式。在這些情況下,結(jié)構(gòu)的相似性主要依賴于二級(jí)結(jié)構(gòu)單元的排列方式或拓?fù)浣Y(jié)構(gòu)。,,蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(kù)CATH,類型Class、構(gòu)架Architecture 、拓
30、撲結(jié)構(gòu)Topology和同源性Homology 。分類基礎(chǔ)是蛋白質(zhì)結(jié)構(gòu)域。與SCOP不同的是,CATH把蛋白質(zhì)分為4類,即a主類、b主類,a-b類(a/b型和a+b型)和低二級(jí)結(jié)構(gòu)類。低二級(jí)結(jié)構(gòu)類是指二級(jí)結(jié)構(gòu)成分含量很低的蛋白質(zhì)分子。CATH數(shù)據(jù)庫(kù)的第二個(gè)分類依據(jù)為由α螺旋和β折疊形成的超二級(jí)結(jié)構(gòu)排列方式,而不考慮它們之間的連接關(guān)系。,,第三個(gè)層次為拓?fù)浣Y(jié)構(gòu),即二級(jí)結(jié)構(gòu)的形狀和二級(jí)結(jié)構(gòu)間的聯(lián)系。第四個(gè)層次為結(jié)構(gòu)的同源性,它是先通過(guò)
31、序列比較然后再用結(jié)構(gòu)比較來(lái)確定的。CATH數(shù)據(jù)庫(kù)的最后一個(gè)層次為序列(Sequence)層次,在這一層次上,只要結(jié)構(gòu)域中的序列同源性大于35%,就被認(rèn)為具有高度的結(jié)構(gòu)和功能的相似性。對(duì)于較大的結(jié)構(gòu)域,則至少要有60%與小的結(jié)構(gòu)域相同。,蛋白質(zhì)結(jié)構(gòu)分類數(shù)據(jù)庫(kù)CATH,,End of PART 1,,現(xiàn)代生物信息數(shù)據(jù)庫(kù)的特征(*),,(1)數(shù)據(jù)更新速度快,數(shù)據(jù)量呈指數(shù)增長(zhǎng)趨勢(shì) (2)數(shù)據(jù)庫(kù)使用頻率快速增長(zhǎng),重要性日益被科研工作者所認(rèn)識(shí)
32、(3)數(shù)據(jù)庫(kù)的復(fù)雜程度不斷增加(4)數(shù)據(jù)庫(kù)網(wǎng)絡(luò)化 互聯(lián)網(wǎng)上訪問(wèn);公共數(shù)據(jù)庫(kù)之間相互鏈接;集成數(shù)據(jù)庫(kù)系統(tǒng)。(5)面向應(yīng)用。如提供在線分析工具。(7)先進(jìn)的計(jì)算機(jī)硬件和軟件的配置,分子生物數(shù)據(jù)庫(kù)的分類,,,一級(jí)數(shù)據(jù)庫(kù)概念:數(shù)據(jù)直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過(guò)簡(jiǎn)單的歸類整理和注釋 包含: 基因組數(shù)據(jù)庫(kù)、 核酸序列數(shù)據(jù)庫(kù)、 蛋白一級(jí)結(jié)構(gòu)序列數(shù)據(jù)庫(kù)、
33、 生物大分子三維空間結(jié)構(gòu)數(shù)據(jù)庫(kù)(主要為蛋白質(zhì)),二級(jí)數(shù)據(jù)庫(kù)概念:對(duì)原始生物分子數(shù)據(jù)進(jìn)行整理、分類的結(jié)果,是在一級(jí)數(shù)據(jù)庫(kù)、實(shí)驗(yàn)數(shù)據(jù)和理論分析的基礎(chǔ)上針對(duì)特定的應(yīng)用目標(biāo)而建立的。包含:種類繁多:真核生物啟動(dòng)子序列庫(kù) EPD ;功能模體(motif)數(shù)據(jù)庫(kù) PROSITE,數(shù)據(jù)直接來(lái)源于實(shí)驗(yàn)獲得的原始數(shù)據(jù),只經(jīng)過(guò)簡(jiǎn)單的歸類整理和注釋。,一級(jí)數(shù)據(jù)庫(kù),,序列數(shù)據(jù)庫(kù),,主要核酸序列數(shù)據(jù)庫(kù): GenBank、EMBL、 DDBJ主要蛋白質(zhì)序列
34、數(shù)據(jù)庫(kù):Swissprot, PIR,公共序列數(shù)據(jù)庫(kù)(Public Sequence Database),1988 年3個(gè)數(shù)據(jù)庫(kù)達(dá)成協(xié)議,組成合作聯(lián)合體。它們每天交換信息,并對(duì)數(shù)據(jù)庫(kù) DNA 序列記錄的統(tǒng)一標(biāo)準(zhǔn)達(dá)成一致。 每個(gè)機(jī)構(gòu)負(fù)責(zé)收集來(lái)自不同地理分布的數(shù)據(jù) (EMBL 負(fù)責(zé)歐洲, GenBank 負(fù)責(zé)美洲, DDBJ負(fù)責(zé)亞洲等) ,將所有信息匯總在一起,共同享有并向世界開(kāi)放,故這 3 個(gè)數(shù)據(jù)庫(kù)又被稱為公共序列數(shù)據(jù)庫(kù),,Ge
35、nBank,DDBJ,EMBL,,,,內(nèi)容提綱(Part 2),生物信息數(shù)據(jù)存儲(chǔ)格式生物信息的檢索和提交,,生物信息的存貯格式,GTAAGACTAAGATATCATGATGGATCCTGTGTCTGTTGTACATAGCTTTGCTAGGAGTCAGGGCCTGCCACTTAACTTCAAAACTGTGGGTTGTGAGGGTCCAAGTCACGACCCACGATTCGTAATTGAATGTAAACTTCTTGATMVHLPEE
36、KDAVTALWGKVNVGGEALGRLLVVYPWTQRFFESFGDLSTDAVMGNPKVKAHGKKVLGAFSD,RAW序列格式,實(shí)驗(yàn)所得的原始序列數(shù)據(jù)序列可以是一行也可以是多行,行的長(zhǎng)度沒(méi)有限制序列中可以包含ATCGUY(TC)R(GA),以及與之對(duì)應(yīng)的小寫(xiě)形式其他的字符不可以出現(xiàn)交流性差,,FASTA格式,又稱Pearson 格式特點(diǎn):最常用、最簡(jiǎn)單的序列注釋格式 命名規(guī)則: 1、以大于號(hào)“>&
37、quot;起始 2、 標(biāo)題行( a single-line description) 位于文件的第一行,(中英) 3、 序列行隨后,序列行中不允許有空間,每行文字不超 過(guò)80個(gè)字符 4、組成序列信息字符串的符號(hào)應(yīng)為IUB/IUPAC (International Union Of Pure And Applied Chemistry)核苷酸或氨基酸的符號(hào) 5、核苷酸字符大小寫(xiě)均可,氨基酸
38、字符應(yīng)大寫(xiě) 6、"-"單個(gè)連字符表示一個(gè)空位 “gap” 7、序列中不允許有數(shù)字、不明確的核苷酸用N表示,氨基酸用X表示 8、 氨基酸序列中“*”表示終止 9、常保存為.TXT文檔,,IUB-IUPAC堿基代碼表,IUB-IUPAC氨基酸代碼表,FASTA文件格式示例,,FASTA格式示例,錯(cuò)誤,,FASTA格式示例,,正確,新的問(wèn)題的提出 簡(jiǎn)單的命名如何區(qū)分眾多的序列?,F
39、ASTA格式示例,,標(biāo)題行相關(guān)部分用 “|”分隔; 命名的順序:gi號(hào)| Accesion number|相對(duì)應(yīng)的英文名稱,“[ ]” 相應(yīng)物種的拉丁文名稱,gi : GenoInfo Identifier 的簡(jiǎn)寫(xiě),指的序列標(biāo)識(shí)號(hào)。 序列的任何改變都會(huì)被分配一個(gè)新的GI號(hào)。 一條核苷酸序列翻譯成蛋白質(zhì)序列, 也會(huì)分配一個(gè)新的GI號(hào),,RefSeq的數(shù)據(jù)特點(diǎn),,GenBank中一個(gè)基因的索引號(hào)可能
40、有上百個(gè),但對(duì)應(yīng)一個(gè)基因的RefSeq只有一個(gè),GBFF,GBFF (GenBank Flat File)文本文件GBFF是GenBank數(shù)據(jù)庫(kù)的基本信息單位最為廣泛使用的生物信息學(xué)序列格式之一三大數(shù)據(jù)庫(kù)交換數(shù)據(jù)是采用的格式,,GBFF的格式,第一部分:描述符 包含了關(guān)于整個(gè)記錄的信息 第二部分:特征表
41、 包含了注釋這一記錄的特性第三部分:核酸序列本身 在最后一行以“// ”結(jié)尾。,,LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; an
42、d Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces
43、cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibb
44、s,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 150
45、3-1509 (1994) PUBMED 7871890 ......FEATURES Location/Qualifiers CDS <1..206 /codon_start=3 /product="TCP1-beta"
46、 /protein_id="AAA98665.1" /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRAR
47、PRTANRQHM" gene 687..3158 /gene="AXL2" ...... ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagtt
48、aggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct ...... 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc //,LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 DEFINITIO
49、N Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (REV7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE Saccharomyces
50、 cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi; Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFE
51、RENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TITLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis
52、in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) PUBMED 7871890 ......FEATURES Location/Qualifiers CDS <1..206 /codon_start=3
53、 /product="TCP1-beta" /protein_id="AAA98665.1" /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADM
54、RQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" gene 687..3158 /gene="AXL2" ...... ORIGIN 1 gatcctccat atacaacggt atctccacct ca
55、ggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gtagtcagct ...... 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc //,,描述符(包含整個(gè)記錄的信息),,特征表(注釋這一紀(jì)錄的信
56、息),,序列信息,所有序列數(shù)據(jù)庫(kù)的最后一行均以 // 結(jié)尾,LOCUS SCU49845 5028 bp DNA linear PLN 21-JUN-1999 DEFINITION Saccharomyces cerevisiae TCP1-beta gene, partial cds; and Axl2p (AXL2) and Rev7p (RE
57、V7) genes, complete cds. ACCESSION U49845 VERSION U49845.1 GI:1293613 KEYWORDS . SOURCE Saccharomyces cerevisiae (baker's yeast) ORGANISM Saccharomyces cerevisiae Eukaryota; Fungi;
58、 Ascomycota; Saccharomycotina; Saccharomycetes; Saccharomycetales; Saccharomycetaceae; Saccharomyces. REFERENCE 1 (bases 1 to 5028) AUTHORS Torpey,L.E., Gibbs,P.E., Nelson,J. and Lawrence,C.W. TI
59、TLE Cloning and sequence of REV7, a gene whose function is required for DNA damage-induced mutagenesis in Saccharomyces cerevisiae JOURNAL Yeast 10 (11), 1503-1509 (1994) PUBMED 7871890 .....
60、.FEATURES Location/Qualifiers CDS <1..206 /codon_start=3 /product="TCP1-beta" /protein_id="AAA98665.1&quo
61、t; /db_xref="GI:1293614" /translation="SSIYNGISTSGLDLNNGTIADMRQLGIVESYKLKRAVVSSASEA AEVLLRVDNIIRARPRTANRQHM" gene 687
62、..3158 /gene="AXL2" ...... ORIGIN 1 gatcctccat atacaacggt atctccacct caggtttaga tctcaacaac ggaaccattg 61 ccgacatgag acagttaggt atcgtcgaga gttacaagct aaaacgagca gta
63、gtcagct ...... 4981 tgccatgact cagattctaa ttttaagcta ttcaatttct ctttgatc //,定義行,CDS 指的是編碼區(qū)序列(Coding sequence)。 序列功能區(qū)域的表示方法: 1. 確定的功能區(qū),直接寫(xiě)作n........m 2. 表示partial on t
64、he 3'end 4.complement 互補(bǔ)序列。表示CDS位于互補(bǔ)鏈,EMBL Format,EMBL數(shù)據(jù)庫(kù)序列詳細(xì)注釋的格式與GBFF類似僅字符的標(biāo)識(shí)符是兩個(gè)字的簡(jiǎn)寫(xiě),,EMBL格式,EMBL:酵母菌TCB1-β,蛋白序列數(shù)據(jù)庫(kù)的存儲(chǔ)格式,SWISS-PROT的存儲(chǔ)格式和EMBL的存儲(chǔ)格式相似PIR的存儲(chǔ)格式與GenBank d的存儲(chǔ)格式詳細(xì),,重點(diǎn)掌握GBFF格式,練習(xí) GBFF注釋A
65、ccession number:GQ331973.1,生物信息的檢索,信息檢索(informal retrieval): 是將無(wú)序的數(shù)據(jù)有序化,形成信息集合,并根據(jù)需要從信息集合中提取特定信息的過(guò)程。 實(shí)質(zhì):將用戶的檢索標(biāo)識(shí)和信息集中存儲(chǔ)的信息標(biāo)識(shí)進(jìn)行比較和選擇(或稱匹配),,,GenBank 和EMBL格式等數(shù)據(jù)存儲(chǔ)格式 兩大部分組成: 序列數(shù)據(jù)和對(duì)序列數(shù)據(jù)的注釋,數(shù)據(jù)庫(kù)查詢與數(shù)據(jù)庫(kù)搜索,數(shù)據(jù)庫(kù)查詢(d
66、atabase query) 是指對(duì)序列、結(jié)構(gòu)以及各種二次數(shù)據(jù)庫(kù)中的注釋信息進(jìn)行關(guān)鍵詞匹配查找。 數(shù)據(jù)庫(kù)搜索(database search) 分子生物信息學(xué)中有特定含義,它是指通過(guò)特定的序列相似性比對(duì)算法,找出核酸或蛋白質(zhì)序列數(shù)據(jù)庫(kù)中與檢測(cè)序列具有一定程度相似性的序列。,,生物信息檢索系統(tǒng),Entrez(http://www.ncbi.nlm.nih.gov/sites/gquery) SR
67、S (Sequence Retrieval System),,生物信息檢索系統(tǒng)—Entrez(*),Entrez (http://www.ncbi.nlm.nih.gov/sites/gquery) NCBI著名的用于提取序列信息的工具,它將科學(xué)文獻(xiàn)、DNA和蛋白質(zhì)序列數(shù)據(jù)庫(kù)、蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)、種群研究數(shù)據(jù)以及全基因組組裝數(shù)據(jù)整合成一個(gè)高度集成的系統(tǒng)。,,生物信息檢索系統(tǒng)—SRS,SRS SRS是Sequence Re
68、trieval System的縮寫(xiě),由EMBL(歐洲分子生物學(xué)實(shí)驗(yàn)室)開(kāi)發(fā)的以萬(wàn)維網(wǎng)界面運(yùn)行的生物數(shù)據(jù)庫(kù)檢索系統(tǒng)。最初是為核酸序列數(shù)據(jù)庫(kù)EMBL和蛋白質(zhì)序列數(shù)據(jù)庫(kù)SwissProt的查詢開(kāi)發(fā)的系統(tǒng)。隨著分子生物信息數(shù)據(jù)庫(kù)的應(yīng)用和開(kāi)發(fā)需求不斷增長(zhǎng),SRS已經(jīng)成為歐洲生物信息網(wǎng)主要的 數(shù)據(jù)檢索工具,,Entrez,集成NCBI的各種數(shù)據(jù)庫(kù): 生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù) (PubMed,Books,Journals date
69、base and PMC) 核酸序列數(shù)據(jù)庫(kù) (GenBank/ EMBL/ DDBJ,Genome Datebase,Unigene,STS) 蛋白質(zhì)序列數(shù)據(jù)庫(kù) (Swiss-Prot, PIR) 三維結(jié)構(gòu)數(shù)據(jù)庫(kù) (Conserved Domains, 3D Domains) 基因組和染色體圖譜資料 (Genomes,Gene,Cancer Chromo
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物信息學(xué)數(shù)據(jù)庫(kù)及其利用方法
- 生物信息學(xué)數(shù)據(jù)庫(kù)-遵義醫(yī)學(xué)院珠海校區(qū)
- 生物信息學(xué)
- microRNA生物標(biāo)志物的數(shù)據(jù)庫(kù)構(gòu)建及生物信息學(xué)分析.pdf
- 生物信息學(xué)課程信息
- 2010生物信息學(xué)新進(jìn)展
- 生物信息學(xué)教案
- 生物信息學(xué)課件
- 生物信息學(xué)導(dǎo)論
- 生物信息學(xué)概論
- 生物信息學(xué)序列分析
- 生物信息學(xué)考試大綱
- 生物信息學(xué)作業(yè)實(shí)驗(yàn)
- 生物信息學(xué) 期末復(fù)習(xí)
- 六生物信息學(xué)和進(jìn)化的研究方法
- 生物信息學(xué)選擇題
- 生物信息學(xué)復(fù)習(xí)題
- 生物信息學(xué)及其發(fā)展歷史
- 生物信息學(xué) 復(fù)習(xí)題
- 生物信息學(xué)實(shí)驗(yàn)報(bào)告
評(píng)論
0/150
提交評(píng)論