相互作用組異構(gòu)數(shù)據(jù)集成研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩165頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、后基因組(post-genome)生物醫(yī)學(xué)的一個(gè)關(guān)鍵目標(biāo)就是對(duì)活細(xì)胞內(nèi)的所有分子及其相互間的作用進(jìn)行全面和系統(tǒng)地研究。理解細(xì)胞系統(tǒng)的一個(gè)關(guān)鍵步驟是對(duì)DNA、RNA、蛋白質(zhì)和化學(xué)小分子等相關(guān)的物理相互作用網(wǎng)絡(luò)進(jìn)行映射,從而對(duì)特定的物種形成一個(gè)盡可能完整和準(zhǔn)確的相互作用組網(wǎng)絡(luò)(interactome network)。研究者們采用高通量技術(shù)的實(shí)驗(yàn),基于計(jì)算的預(yù)測(cè),以及文獻(xiàn)挖掘等方法得到了大量的、有價(jià)值的相互作用組數(shù)據(jù)。同時(shí),為了管理和利用這

2、些數(shù)據(jù),研究者們建立了許多相互作用組數(shù)據(jù)庫(kù)。但是,現(xiàn)有的相互作用組數(shù)據(jù)庫(kù)相互隔離,形成了所謂的“信息孤島”,不能實(shí)現(xiàn)數(shù)據(jù)共享(data sharing)和更有效的利用。為了更好地管理和更有效地利用現(xiàn)有的相互作用組數(shù)據(jù),需要將這些相互獨(dú)立的數(shù)據(jù)庫(kù)有機(jī)地集成在一起。這對(duì)于增加相互作用組研究的整體知識(shí)水平,以及對(duì)該領(lǐng)域更深入、更全面的理解是十分重要的。數(shù)據(jù)集成(data integration)已經(jīng)成為相互作用組研究的重要方向之一。
 

3、  本研究建立了相互作用組數(shù)據(jù)倉(cāng)庫(kù)InteractomeDW。InteractomeDW包括相互作用組數(shù)據(jù)庫(kù)集合,生物實(shí)體映射數(shù)據(jù)庫(kù),生物學(xué)本體和受控詞表數(shù)據(jù)庫(kù)集合,以及生物學(xué)注釋數(shù)據(jù)庫(kù)等四大部分。InteractomeDW存儲(chǔ)了62779056條相互作用記錄,涉及51個(gè)相互作用組數(shù)據(jù)源,9個(gè)輔助數(shù)據(jù)源,5個(gè)相互作用組數(shù)據(jù)類型(蛋白質(zhì)相互作用,結(jié)構(gòu)域相互作用,分子間相互作用,復(fù)合物和通路),2426個(gè)物種,170個(gè)相互作用鑒定方法,4

4、4個(gè)相互作用類型,以及85212篇參考文獻(xiàn)。就我們所知,InteractomeDW比現(xiàn)有相關(guān)研究建立的數(shù)據(jù)倉(cāng)庫(kù)的規(guī)模都要大。
   本研究首次提出融合了基于數(shù)據(jù)倉(cāng)庫(kù)(data warehouse)和基于中介(mediation)這兩種方法的新型異構(gòu)數(shù)據(jù)集成方法WM。WM方法采用數(shù)據(jù)倉(cāng)庫(kù)方式進(jìn)行數(shù)據(jù)管理,以確保數(shù)據(jù)源的可用性、提高系統(tǒng)查詢效率和數(shù)據(jù)質(zhì)量。待集成的所有相互作用組數(shù)據(jù)庫(kù)都存儲(chǔ)在本地服務(wù)器上,這樣可以最大限度地確保數(shù)據(jù)源

5、的可用性。同時(shí),本地存儲(chǔ)策略顯著提高了系統(tǒng)的查詢效率和響應(yīng)能力。相互作用組數(shù)據(jù)倉(cāng)庫(kù)提供的數(shù)據(jù)清洗功能可以檢測(cè)、修正或刪除所有相互作用組數(shù)據(jù)庫(kù)中己損壞、不完整或不準(zhǔn)確的臟數(shù)據(jù),進(jìn)而提高所集成數(shù)據(jù)的質(zhì)量。WM方法采用中介方式實(shí)現(xiàn)具體的數(shù)據(jù)集成工作,以提高系統(tǒng)的擴(kuò)展性和可維護(hù)性。在WM方法中,可以方便地通過(guò)向中介器模塊的映射關(guān)系表注冊(cè)新的數(shù)據(jù)源,并構(gòu)建相應(yīng)包裝器的方式實(shí)現(xiàn)數(shù)據(jù)集成范圍的擴(kuò)展。這種擴(kuò)展方式對(duì)數(shù)據(jù)集成系統(tǒng)的其他部分沒(méi)有任何影響,實(shí)

6、現(xiàn)了可插拔式的數(shù)據(jù)集成。這種低耦合度、靈活的集成方式使得數(shù)據(jù)集成系統(tǒng)的可維護(hù)性大大加強(qiáng)。WM方法結(jié)合了上述兩種數(shù)據(jù)集成方法的優(yōu)點(diǎn),很好地兼顧了數(shù)據(jù)集成的效率和靈活性,為相互作用組數(shù)據(jù)集成提供了基礎(chǔ)架構(gòu)和解決方案。
   本研究利用WM方法成功地構(gòu)建了一個(gè)可靠性高、數(shù)據(jù)質(zhì)量高、查詢效率高和可擴(kuò)展性強(qiáng)的基于網(wǎng)絡(luò)的相互作用組異構(gòu)數(shù)據(jù)集成系統(tǒng)IMbase。建立IMbase的目的就是讓生物學(xué)家可以透明地訪問(wèn)相互作用組異構(gòu)數(shù)據(jù)庫(kù),更有效地利

7、用其中的數(shù)據(jù)。IMbase是一個(gè)共享和利用相互作用組數(shù)據(jù)的基礎(chǔ)平臺(tái),為生物學(xué)家提供了相互作用組數(shù)據(jù)集成、相互作用網(wǎng)絡(luò)分析和推理,以及相應(yīng)的Web Service開(kāi)發(fā)接口等多種功能,進(jìn)而可以幫助生物學(xué)家生成相互作用假說(shuō)和實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)(knowledgediscovery)。IMbase對(duì)相互作用組相關(guān)數(shù)據(jù)進(jìn)行了垂直集成。這樣做可以通過(guò)及時(shí)總結(jié)和整理現(xiàn)有數(shù)據(jù),實(shí)現(xiàn)相互作用組研究領(lǐng)域內(nèi)更廣泛的數(shù)據(jù)共享,進(jìn)而提高相互作用組研究領(lǐng)域的總體知識(shí)水平

8、。以相互作用組數(shù)據(jù)的垂直集成為基礎(chǔ),可以進(jìn)一步實(shí)現(xiàn)跨領(lǐng)域和學(xué)科數(shù)據(jù)的水平集成,以實(shí)現(xiàn)更有價(jià)值的知識(shí)發(fā)現(xiàn)。就我們所知,IMbase是現(xiàn)有數(shù)據(jù)規(guī)模最大,功能最為完善的相互作用組數(shù)據(jù)集成系統(tǒng)。用戶可以通過(guò)網(wǎng)址http://122.70.220.98/imbase/index.gr免費(fèi)訪問(wèn)IMbase。
   本研究將IMbase系統(tǒng)應(yīng)用于小鼠神經(jīng)管缺陷(NTDs)的研究。以表達(dá)譜芯片篩選出的差異表達(dá)基因?yàn)檎T餌,利用IMbase獲得與這

9、些差異表達(dá)基因有相互作用的生物實(shí)體對(duì)應(yīng)的基因,并構(gòu)建相應(yīng)的相互作用網(wǎng)絡(luò)。本研究建立了已知小鼠NTDs候選基因數(shù)據(jù)庫(kù)MouseNTDs。通過(guò)MouseNTDs數(shù)據(jù)庫(kù)對(duì)潛在NTDs候選基因進(jìn)行篩選,以確定已被認(rèn)定和尚未被認(rèn)定為小鼠NTDs候選基因的潛在NTDs候選基因。最后,通過(guò)研究這些篩選出的潛在NTDs候選基因的注釋信息和通路信息,本研究提出了小鼠NTDs候選基因假說(shuō),為進(jìn)一步的分子生物學(xué)實(shí)驗(yàn)提供可能的方向。
   本研究的主要

10、創(chuàng)新之處在于:
   1.提出了一種新的異構(gòu)數(shù)據(jù)集成的方法WM。WM方法結(jié)合了基于數(shù)據(jù)倉(cāng)庫(kù)和基于中介這兩種數(shù)據(jù)集成方法的優(yōu)點(diǎn),很好地兼顧了數(shù)據(jù)集成的效率和靈活性,為相互作用組異構(gòu)數(shù)據(jù)集成提供了基礎(chǔ)架構(gòu)和解決方案。
   2.建立了一個(gè)相互作用組數(shù)據(jù)倉(cāng)庫(kù)InteractomeDW。InteractomeDW共存儲(chǔ)了超過(guò)62百萬(wàn)(62779056)條相互作用記錄,涉及51個(gè)相互作用組數(shù)據(jù)源,9個(gè)輔助數(shù)據(jù)源,5個(gè)相互作用組數(shù)據(jù)

11、類型(蛋白質(zhì)相互作用,結(jié)構(gòu)域相互作用,分子間相互作用,復(fù)合物和通路),2426個(gè)物種,170個(gè)相互作用鑒定方法,44個(gè)相互作用類型,以及85212篇參考文獻(xiàn)。
   3.建立了一個(gè)生物實(shí)體映射數(shù)據(jù)庫(kù)BEM。BEM是由5個(gè)相關(guān)數(shù)據(jù)源集成而來(lái),共存儲(chǔ)了超過(guò)1.8億(180328282)條非冗余的映射記錄,涉及4個(gè)實(shí)體類型(基因,蛋白質(zhì),小分子物質(zhì)和化合物),可以實(shí)現(xiàn)90個(gè)常用生物醫(yī)學(xué)數(shù)據(jù)庫(kù)之間的實(shí)體映射。
   4.利用WM

12、方法,構(gòu)建了一個(gè)基于網(wǎng)絡(luò)的相互作用組異構(gòu)數(shù)據(jù)集成系統(tǒng)IMbase。IMbase是一個(gè)共享和利用相互作用組數(shù)據(jù)的計(jì)算平臺(tái),提供相互作用組數(shù)據(jù)集成、相互作用網(wǎng)絡(luò)分析和推理、生物實(shí)體映射等多種服務(wù),可以幫助研究者生成相互作用假說(shuō)和實(shí)現(xiàn)知識(shí)發(fā)現(xiàn)。
   5.構(gòu)建的異構(gòu)數(shù)據(jù)集成系統(tǒng)IMbase不但提供了基于網(wǎng)絡(luò)應(yīng)用程序的訪問(wèn)方式,而且還提供了基于Web Service的訪問(wèn)方式,以便為相關(guān)軟件開(kāi)發(fā)者提供編程接口,實(shí)現(xiàn)軟件復(fù)用和可互操作性。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論