2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩56頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、普通高等教育“十二五”規(guī)劃教材生物信息學Bioinformatics,第二章 生物學數(shù)據(jù)庫及其檢索,第一節(jié) 生物數(shù)據(jù)庫簡介,什么是數(shù)據(jù)庫數(shù)據(jù)庫類型生物學數(shù)據(jù)庫重要的生物信息站點,一、什么是數(shù)據(jù)庫,數(shù)據(jù)庫(database)是一類用于存儲和管理數(shù)據(jù)的計算機文檔,是統(tǒng)一管理的相關數(shù)據(jù)的集合。其存儲形式有利于數(shù)據(jù)信息的檢索與調用。數(shù)據(jù)庫開發(fā)的主要任務就是將數(shù)據(jù)以結構化記錄的形式進行組織以便于信息的檢索。數(shù)據(jù)庫的每一條記錄(rec

2、ord),也可以叫做條目(entry),則包含了多個描述某一類的數(shù)據(jù)特性或屬性的字段(field),比如基因名,來源物種,序列的創(chuàng)建日期等,這也是數(shù)據(jù)結構化的基礎;而值(value)則是指每個記錄中某個字段的具體內容。,二、數(shù)據(jù)庫的類型,到目前為止,生物學數(shù)據(jù)庫使用了4種不同的數(shù)據(jù)庫結構類型:平面文件、關系型數(shù)據(jù)庫、面向對象數(shù)據(jù)庫和基于Internet平臺的XML。,三、生物學數(shù)據(jù)庫,根據(jù)存放數(shù)據(jù)類型的不同,可以分為序列(如GenBan

3、k, SWISSPROT等)、(三維)結構(如PDB)、文獻(如NCBI的PubMed)、序列特征(如PROSITE, Pfam等)、基因組圖譜(如MapViewer, Ensembl等)、表達譜等多種數(shù)據(jù)庫,每一種還可以進行更細致層次的劃分。而根據(jù)數(shù)據(jù)庫存儲的具體內容則還可以分為一級數(shù)據(jù)庫和二級數(shù)據(jù)庫(primary and secondary databases)以及用戶針對性更強的專用數(shù)據(jù)庫(specialized databas

4、es) 。,一級數(shù)據(jù)庫和二級數(shù)據(jù)庫,一級數(shù)據(jù)庫主要內容是來源于實驗室操作所得到的原始數(shù)據(jù)結果(如測序得到的序列或經(jīng)過X射線晶體衍射所得到的三維結構數(shù)據(jù)等),包含一些基本的說明(如序列所屬的物種、類型、序列發(fā)表的文獻出處等)。如GenBank、DDBJ、EMBL以及PDB(Protein Data Bank)等二次數(shù)據(jù)庫則是在一次數(shù)據(jù)庫的信息基礎上進行了計算加工處理并增加了許多人為的注釋而構成的。比如NCBI的RefSeq數(shù)據(jù)庫,其mR

5、NA序列是綜合了GenBank中來源于同一物種相同基因的所有mRNA序列信息的一致性序列(consensus sequence),如何查找與研究相關的生物學資源,公共搜索引擎 重要的生物信息學門戶站點 《核酸研究》每年的數(shù)據(jù)庫專輯/網(wǎng)絡服務器專輯,四、重要的生物信息站點,NCBI--美國國家生物技術信息中心EBI—歐洲生物信息研究所 EMBnet — 歐洲分子生物學信息網(wǎng)絡,NCBI,NCBI(http://www.ncbi.n

6、lm.nih.gov), 全稱為National Center for Biotechnology Information,建立于1988年11月4日,下屬于美國國立衛(wèi)生研究院(National Institutes of Health,簡稱NIH)的國立醫(yī)學圖書館(National Library of Medicine,簡稱NLM)。中心的主要任務是創(chuàng)建公共可接入數(shù)據(jù)庫,引導在計算生物學以及在基因組數(shù)據(jù)分析方面的軟件開發(fā),同時發(fā)布各

7、類生物醫(yī)學信息。 NCBI的數(shù)據(jù)資源主要包括數(shù)據(jù)庫、分析工具、數(shù)據(jù)提交及教育四個部分,每個部分的資源都有更為細致的分類,EBI,EBI(http://www.ebi.ac.uk),全稱是European Bioinformatics Institute,是隸屬于歐洲分子生物學研究室(EMBL)的一個非盈利性的學術機構,專門從事生物信息學方面的研究與服務。EBI的主要任務包括為科研團體免費提供數(shù)據(jù)及生物信息學服務;從生物信息學的角度上為

8、推動特定科研項目的發(fā)展做出努力,為各階層的科研人員提供高級生物信息學培訓以及幫助向工業(yè)界發(fā)布最新技術等。EBI的網(wǎng)站在數(shù)據(jù)規(guī)模與承擔的任務方面都與NCBI相當,其資源也分為數(shù)據(jù)庫、工具、EBI研究小組、培訓、幫助等幾個部分,而全部資源及工具則顯示在其Site Index頁面(http://www.ebi.ac.uk/Information/sitemap.html)中。,EMBnet,EMBnet (European Molecular

9、 Biology Network)建立于1988年,由多個位于歐洲及歐洲以外的成員國節(jié)點及專業(yè)節(jié)點組成。除了上面提到的歐洲生物信息學研究所EMBL-EBI,瑞士生物信息研究所SIB、澳大利亞國家基因組學信息服務(AGRIS)以及中國北京大學的生物信息中心PKU-CBI都是EMBnet的成員。它們不僅為本國用戶提供生物信息資源及生物計算服務,同時提供用戶支持、培訓以及進行相關的生物信息研究與開發(fā)。比如專業(yè)蛋白質分析系統(tǒng)ExPASy就是由S

10、IB開發(fā)及維護,而通用蛋白質資源UniProt則由EMBL-EBI及SIB、PIR共同進行維護的。由于EMBnet的成員國節(jié)點及專業(yè)節(jié)點各自包含了大量的公共數(shù)據(jù)信息及自行開發(fā)的數(shù)據(jù)庫及分析工具,因此可作為生物學數(shù)據(jù)資源的補充來源。相關信息可以從http://www.embnet.org/en/members/National 和http://www.embnet.org/en/members/Specialist中查到。,第二節(jié) 生物學

11、數(shù)據(jù)庫的內容與結構,數(shù)據(jù)存儲基礎平面文件格式序列格式XML格式關系型數(shù)據(jù)庫,數(shù)據(jù)存儲基礎,信息是存儲在計算機臨時或永久存儲器中的一串字節(jié)。 獲取信息需要控制兩個方面。第一是數(shù)據(jù)被編譯為字節(jié)的方式,或者成為數(shù)據(jù)格式。第二是運用哪些程序能夠編碼(寫)和解碼(讀)這些數(shù)據(jù) 。目前最常用的格式類型:平面文件格式、XML和關系型數(shù)據(jù)庫,平面文件格式—Flat File,這種格式是將多個記錄以特殊約定的分隔符(比如“/” 或“|”)進行

12、區(qū)分,而每一個記錄內的眾多字段也是通過一些特定的分隔符(如“,”或“:”)加以區(qū)分。數(shù)據(jù)庫文件就是由這些字段及內容所組成,并不包含什么隱藏的計算機指令。 優(yōu)點:通用性(跨平臺) ;容易為perl程序進行解析和處理;專用的flat-file數(shù)據(jù)分析器可以用來將數(shù)據(jù)導入到數(shù)據(jù)管理系統(tǒng)。 缺點:檢索復雜,冗余字段較多,大容量數(shù)據(jù)庫難以處理,Flatfile 格式(UniProt CYC_HUMAN 部分),Perl的正則表達式可用于解析F

13、latfile格式文件,my $newEntry = 1;while() {my($line) = $_;chomp($line);if($line =~ /^ID/) {# matched ID line$newEntry=1;}if($line =~ /^AC\s*(\w+)/) {# matched AC lineif ($newEntry==1) {# print only when at first li

14、neprint "Primary accession " . $1;}$newEntry=0;}if($line =~ /^SQ\s*\w*\s*(\w*)/) {# match SQ lineprint " sequence length: " . $1 . "\n";}# ignore other lines}例程輸出:> perl examp

15、le.pl < uniprot.datPrimary accession Q4U9M9 sequence length: 893Primary accession P15711 sequence length: 924Primary accession Q43495 sequence length: 102Primary accession P18646 sequence length: 75Primary access

16、ion P13813 sequence length: 296………,三、序列格式,序列格式主要在布局和序列碼行的形成上不同,而一些格式同時提供描述或元數(shù)據(jù)或行集。 對于許多軟件工具來說,它們能很自然地自動區(qū)分和接受不同格式的序列常用格式:Fasta;GenBank;SwissProt等,XML格式,XML(可擴展標記語言)是一種在文本文件中組織數(shù)據(jù)的語言。 一個XML文件代表一個嵌套的信息樹。樹中的每一個節(jié)點能包含像一串子節(jié)點

17、或者一些屬性這樣的數(shù)據(jù),并且一個XML文件始于根節(jié)點。一個XML文件有一個文本,在文本中每一個節(jié)點的內容及其子節(jié)點被一對相互封閉的標簽劃定。形式上類似html。,XML文檔的結構,XML文檔的結構是根據(jù)一種文件類型定義(DTD)組織的。一個DTD定義了一類遵從一系列規(guī)則的XML文檔。這些規(guī)則中包括例如一個節(jié)點中有多少個,怎樣類型,怎樣組織的子節(jié)點。一個DTD是通過一個文件類型聲明與XML文檔聯(lián)系在一起的,這個聲明指出了這個XML文檔是依

18、附于結構由該DTD定義的文檔類。一個DTD是通過XML確定其特殊性的,在這個XML文檔里可能直接包含了關于類型的聲明。為了更方便,DTD是以獨立文件的形式進行存儲和調用的。,10697468[… … … …]0099-2399161975JunJournal of endodonticsMethodology and criteria in the evaluation of dental implant

19、s.[………….],來自MEDLINE的XML例子(部分),[…………..]<!ATTLIST ISSNIssnType (Electronic | Print | Undetermined) #REQUIRED,上例中XML的文件類型定義(DTD)(部分),XML的優(yōu)勢,XML依照國際標準設計,所以事實上它具備作為計算機通用語言的主要優(yōu)點。幾乎現(xiàn)在每種編程環(huán)境中都包括了讀取和存取XML格式數(shù)據(jù)

20、的工具和庫。文檔對象模型(DOM)是XML文檔的一種概念表征。它是一個數(shù)據(jù)以樹狀存儲于XML文檔的軟件模型。從XML文檔“翻譯”成一個DOM的過程是標準化且容易理解的。許多復雜度,性能,標準支持不同的實現(xiàn)方式都已問世。 一些最常見的軟件工具,比如網(wǎng)絡瀏覽器,提供了XML的無縫整合和DOM水平的編程支持。相似的,絕大部分的文檔管理系統(tǒng)、搜索引擎都可以以DOM兼容的方式從XML文件中索引,搜索,回收信息。 XML作為一種數(shù)據(jù)格式被廣泛

21、的用于生物信息學中。,五、關系型數(shù)據(jù)庫,關系型數(shù)據(jù)庫是由根據(jù)特定的關系模型組織的一系列數(shù)據(jù)表格構成。 每個表格都包括字段和相應的值(列和行)。至少一個共有的字段可以把每個表格鏈接起來,這個字段稱為鍵(key)數(shù)據(jù)庫的結構往往用鏈接不同表格的形式顯示。,引物數(shù)據(jù)庫relational schema,關系型數(shù)據(jù)庫管理系統(tǒng),目前常用的有Oracle,MySQL,Microsoft SQL Sever等 以SQL語句進行查詢以MySQL

22、為例構建數(shù)據(jù)庫見課本第十一章第三節(jié)“SQL及數(shù)據(jù)庫編程”,SQL例子,Gene_Table,SELECT GName, EValue, Organism FROM Gene_Table WHERE EValue < 1.0,查詢結果:,第三節(jié) 生物數(shù)據(jù)庫檢索,NCBI EntrezEBI SRS,(一)Entrez,Entrez系統(tǒng)是由NCBI開發(fā)并提供維護的,它是目前應用最為廣泛的生物學數(shù)據(jù)庫檢索系統(tǒng)之一。它充分利用了眾

23、多公共數(shù)據(jù)庫各個記錄之間本身就存在的邏輯關系,從而從多種類型數(shù)據(jù)的文本信息中找到所需的信息。 NCBI數(shù)據(jù)庫之間存在硬鏈接(hard link)各數(shù)據(jù)庫內部數(shù)據(jù)間存在軟連接(soft link),又稱neighbor。是指預先運算好的與某記錄相似的其他記錄。,ENTREZ數(shù)據(jù)庫模型(2004),Entrez檢索,全局檢索精確檢索批量檢索My NCBI,全局檢索,Global Search (http://www.ncbi.nl

24、m.nih.gov/gquery/) 該檢索方法可對檢索詞進行多個數(shù)據(jù)庫的寬泛檢索,但檢索結果不精確。精確檢索須針對特定數(shù)據(jù)庫采用特殊方法進行查詢。,ENTREZ的全局檢索頁面,精確查詢,布爾邏輯表達式: AND OR NOT限制(limit):包括字段限制、數(shù)據(jù)庫來源限制等;不同數(shù)據(jù)庫限制類型不同高級檢索:可利用搜索構造器進行多詞多字段檢索,并可利用檢索歷史進行配合。通配符使用:“*” 如“hor*”范圍符使用:“:” 時間

25、、序列長度、分子量等。如2005:2012[date] 5000:10000[sequence length],字段限定,范圍限定,PUBMED限制檢索頁面,蛋白質數(shù)據(jù)庫高級檢索頁面,批量檢索,Batch Entrez(http://www.ncbi.nlm.nih.gov/sites/batchentrez?) 通過上傳包含有核酸或蛋白質數(shù)據(jù)庫的GI號或accession numbers的文本文件,一次顯示所有查詢條目,這對一些高

26、通量數(shù)據(jù)的查詢提供便利。,My NCBI,NCBI提供的人性化服務,其功能有:保存數(shù)據(jù)保存檢索歷史并定期返回檢索的新數(shù)據(jù)(Email)對檢索的數(shù)據(jù)可自定義過濾選項,(二)SRS,SRS 是一種通用的生物信息學數(shù)據(jù)集成軟件系統(tǒng) SRS使用專有的解析技術,對flat-flie格式數(shù)據(jù)的解析和索引并與DOM處理結合的另一種類似的系統(tǒng)用于分析和索引XML格式的數(shù)據(jù)。關系數(shù)據(jù)庫連接器可用于集成關系數(shù)據(jù)庫系統(tǒng)中存儲的數(shù)據(jù)。SRS的提供了一

27、個獲取獨特的異構數(shù)據(jù)源的通用接口以及關聯(lián)實際格式和數(shù)據(jù)存儲機制的復雜性旁路。SRS可以不同數(shù)據(jù)庫的參照的文本格式并將其整合成為統(tǒng)一的模式。,SRS檢索方法,快速文本檢索批量檢索標準查詢擴展查詢搜索式查詢字段索引查詢,快速文本檢索,該方法檢索詞將與檢索的數(shù)據(jù)庫中所有字段匹配 ,檢索結果精確度較差。,,SRS快速文本檢索界面,批量檢索,List Search 與Batch entrez檢索類似;檢索類型須符合DATABAS

28、E:ID模式,如:EMBL:AB046566或UNIPROT:104K_THEAN列舉條目不超過500條。,SRS的list search界面,標準查詢,檢索前須確定一個或多個數(shù)據(jù)庫。有四個檢索框并可由布爾邏輯(and ,or,not)進行關聯(lián)。 檢索框中可進行單個詞或多個詞檢索 多詞間的布爾邏輯符號為&,|,!分別對應and,or,not對于數(shù)字和日期 SRS使用數(shù)字化的條目對日期,條目的序列、分子量等長度進行具有針對

29、性的搜索。,Uniprot/swissprot數(shù)據(jù)庫標準查詢表單模式,范圍操作符,數(shù)字化條目可以使用不同的操作符結合到表達式中。這些操作符是:小于;小于或等于;大于以及大于或等于。以上這些可以通過結合冒號:和感嘆號! 來實現(xiàn)。冒號代表不等于,冒號在數(shù)字的前或后代表了是大于還是小于。感嘆號表示的是在其右邊的數(shù)字是否被包括在考慮范圍內。也就是說感嘆號可以被視為“非”或“不等于”。下面是幾個簡單的例子:12:15

30、 大于或等于12但是小于或等于15.12: 大于或等于12,無明確上限。!12: 大于但不等于12,無明確上限。:12 小于或等于12,無明確下限。:!12 小于但不等于12,無明確下限。,正則表達式和通配符應用,正則表達式可用于搜索不同拼

31、寫的單詞,或者相同詞根不同詞綴的單詞 。如“/^phos/”會找到所有以“phos”開頭的詞(如phosphate, phosphorylase),“/ase$/”會找到所有以“ase”結尾的詞(如kinase, phosphatase)。 使用“*”和“?”通配符 。如,“cell*ase”會找到所有以“cell”開頭并以“ase”結尾的詞(如cellobiase, cellobiohydrolase, cellulase)。,擴展

32、查詢,將查詢數(shù)據(jù)庫所有字段列舉顯示出來,并可應用標準查詢中的檢索框檢索的所有功能。范圍檢索可直接用下拉菜單中選取操作符。,查詢展開式顯示使用下拉菜單完成數(shù)字類型數(shù)據(jù)的設置。,搜索式查詢,在“查詢結果”頁面,在“運用搜索式查詢”文本框中輸入你要查詢的內容。點擊檢索鍵。例如,搜索同時符合兩項查詢Q1和Q2的結果,可以輸入Q1&Q2。這會產(chǎn)生一個新的列表Q3,它包含所有同時存在于Q1和Q2列表中的條目。如果你想在查詢結果Q3中搜索與

33、SWISS-RPOT數(shù)據(jù)庫鏈接的條目,可以輸入Q3<SWISSPROT。典型的操作符可以使標準的邏輯函數(shù)(& (AND), | (OR), ! (BUT NOT)將不同的搜索結合起來,尋找結果集之間的聯(lián)系。,搜索式查詢界面,字段索引檢索,通過對特定數(shù)據(jù)庫的特定字段,進行文本匹配后,選擇進行查詢。例如,要尋找swiss-prot數(shù)據(jù)庫所有ID號以il8開頭的條目,則在databank或library page標簽頁面找到Un

34、iPortKB/swiss-prot,并進一步找到ID字段并打開。檢索框“*”號前鍵入il8,點擊List value,便可顯示所有以il8開頭的ID號,然后根據(jù)需要在選擇框內鉤取所需條目,點擊make query便可得到所需結果。,字段索引檢索界面(Swiss-prot數(shù)據(jù)庫的ID字段),SRS8.3新特點,全新界面增加提醒(alert)功能 增加了注釋功能對工作流(workflow)的支持。新版本的SRS 可利用KDE通過強大

35、的APIs進入幾百個數(shù)據(jù)庫和分析工具。用戶可迅速建立工作流而不必像以往只能針對單個數(shù)據(jù)庫和工具 SRS 現(xiàn)支持RedHat AS/ES 4.0 (32 和64-bit 版本), Java 1.5 and 1.6。更方便的實現(xiàn)多個相關連數(shù)據(jù)庫的同屏顯示,SRS的8.3版本主頁(http://bips.u-strasbg.fr/srs83/),全新的SRS8.3檢索向導。以概念(concept)-數(shù)據(jù)庫模式。,作業(yè),查找2012年核酸研

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論