版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、生物學(xué)與信息科學(xué)是當(dāng)今世界上發(fā)展最迅速、影響最大的兩門(mén)科學(xué)。而這兩門(mén)科學(xué)的交叉融合形成了廣義的生物信息學(xué),正以嶄新的理念吸引著科學(xué)家的注意。近幾年借助信息技術(shù)的優(yōu)勢(shì),測(cè)序平臺(tái)得到快速發(fā)展,越來(lái)越多的生物基因組數(shù)據(jù)被公布出來(lái),反過(guò)來(lái)又為生物信息學(xué)提出了新的挑戰(zhàn)。如何快速而有效的分析這些數(shù)據(jù),正成為生物信息學(xué)的一個(gè)重要研究方向。 基因組序列分析是基因組學(xué)的一個(gè)重要組成部分和研究領(lǐng)域。在本研究中,我們從信息論的角度,將基因組序列視作遺
2、傳信息流,提出了一種新的序列分析特征-BBC(Base-Base Correlation),證明該特征即反映了基因組信息組織的結(jié)構(gòu)規(guī)律,也是一種基因組標(biāo)(signature)。經(jīng)過(guò)BBC特征的計(jì)算,一條核酸序列轉(zhuǎn)化成其對(duì)應(yīng)的一個(gè)16維特征向量,從而將不同基因組的序列比較,轉(zhuǎn)化為其對(duì)應(yīng)的多維特征向量的數(shù)學(xué)分析。同時(shí)BBC特征法作為一種無(wú)比對(duì)(alignment-free)法,可以很好的適用于大規(guī)模基因組序列比較和序列搜索。BBC特征法對(duì)于
3、一條核酸序列,不論其長(zhǎng)度是多少,都可將其轉(zhuǎn)化為一個(gè)16維的特征向量,這其實(shí)是對(duì)不同規(guī)模的基因組序列的歸一化和標(biāo)準(zhǔn)化。因此,BBC特征法可以快速而有效的對(duì)基因組序列進(jìn)行比較分析。 真核生物尤其是人類基因組中包含大量的非編碼序列。這些非編碼序列包括內(nèi)含子、基因上游區(qū)、基因下游區(qū)以及基因間區(qū)。我們首先利用BBC特征,并結(jié)合核酸單詞頻率,二聯(lián)核苷酸相對(duì)豐度分析了人類基因組中的基因上游區(qū)、基因下游區(qū)、外顯子、內(nèi)含子以及基因間區(qū),將序列轉(zhuǎn)化
4、成對(duì)應(yīng)的特征向量。在特征分析的基礎(chǔ)上,我們采用判別分析對(duì)基因組中不同的功能區(qū)域進(jìn)行判別分類。我們的研究發(fā)現(xiàn),人類基因組中不同的功能區(qū)域存在不同的組成特征。我們的結(jié)果表明:對(duì)于人類基因組中編碼蛋白質(zhì)的外顯子,判別準(zhǔn)確率達(dá)到94%,而對(duì)于基因中不編碼的內(nèi)含子,判別準(zhǔn)確率達(dá)到86%。 伴隨著測(cè)序技術(shù)的迅速發(fā)展,全基因組數(shù)據(jù)的快速增長(zhǎng),對(duì)遺傳進(jìn)化領(lǐng)域也提出了新的挑戰(zhàn)?;谌蚪M的系統(tǒng)發(fā)生分析可有效避免基于單一基因或片段的系統(tǒng)發(fā)生分析產(chǎn)
5、生的偏向。但基于全基因組序列的比對(duì)遭遇到理論和計(jì)算上的瓶頸。我們采用BBC特征代替?zhèn)鹘y(tǒng)的多序列比對(duì),構(gòu)建系統(tǒng)發(fā)生樹(shù),提出了一套基于BBC特征的全基因組系統(tǒng)發(fā)生學(xué)分析方法。首先,我們將這套方法應(yīng)用于存在爭(zhēng)議的戊肝病毒分型。我們的分析表明,基于BBC特征的全基因組系統(tǒng)發(fā)生學(xué)分析方法,戊肝病毒被分為四個(gè)型和若干亞型,不同型的戊肝病毒具有不同的地理分布。這和序列比對(duì)的方法以及目前大部分的研究結(jié)果相一致,但基于BBC特征的系統(tǒng)發(fā)生學(xué)分析方法卻明顯
6、提高了分析效率,將原先需要幾天才能完成的工作縮短為幾分鐘。另外,我們將這套算法應(yīng)用于冠狀病毒的進(jìn)化研究中。從基于BBC特征構(gòu)建的進(jìn)化樹(shù)上,我們可以看到冠狀病毒主要分為四個(gè)大的分支,SARS自成一分支,且遠(yuǎn)離其它冠狀病毒。我們進(jìn)一步從基因組信息結(jié)構(gòu)角度證明了SARS屬于一種新型的冠狀病毒。同時(shí),我們也確定了在SARS之后新發(fā)現(xiàn)的兩株冠狀病毒(NL63和HKU1)所屬分支。 生物信息學(xué)的另一個(gè)重要應(yīng)用是借助各種算法和分析工具,關(guān)注對(duì)
7、人類疾病相關(guān)問(wèn)題的分析。另外,生命科學(xué)已進(jìn)入功能基因組時(shí)代,影響基因表達(dá)調(diào)控的調(diào)控元件的研究已成為一個(gè)重要的研究方向。博士期間,我被國(guó)家公派選拔前往美國(guó)哈佛大學(xué)進(jìn)行為期一年的學(xué)習(xí)和研究。在這期間,作為ENCODE項(xiàng)目的參與者,我們借助哈佛大學(xué)及其附屬醫(yī)院在乳腺癌研究方面的優(yōu)勢(shì),應(yīng)用功能基因組中的高通量檢測(cè)技術(shù)ChIP-chip來(lái)分析乳腺癌中的重要基因雌激素受體(Estrogen Receptor, ER)及先鋒轉(zhuǎn)錄因子FoxA1在全基因
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基因組序列特征分析.pdf
- 基因組中順式調(diào)控模體的特征分析與計(jì)算預(yù)測(cè).pdf
- 49881.基因組調(diào)控元件的分析
- 基于基因組數(shù)據(jù)的轉(zhuǎn)錄調(diào)控元件分析.pdf
- 31418.基因組加倍對(duì)擬南芥、水稻重復(fù)基因順式調(diào)控序列進(jìn)化的影響
- 苦苣菜黃網(wǎng)病毒基因組末端順式作用元件突變分析.pdf
- 脊椎動(dòng)物基因組的超級(jí)保守序列及剪接位點(diǎn)分析.pdf
- DNA序列特征分析及其在基因組研究中的應(yīng)用.pdf
- 條斑紫菜功能基因組及重復(fù)序列特征研究.pdf
- 50669.基因組序列特征分析與可變剪接鑒定
- 壇紫菜基因組結(jié)構(gòu)特征及紅毛菜功能基因組特性分析.pdf
- 家蠶線粒體基因組全序列測(cè)定及分析.pdf
- 26560.酵母基因組序列分析
- 無(wú)角山羊間性綜合征缺失片段及豬?;蚪M中長(zhǎng)散布元件的序列分析.pdf
- 禽呼腸孤病毒基因組序列模體特征分析.pdf
- 文蛤線粒體基因組序列測(cè)定及進(jìn)化分析.pdf
- 鴨腺病毒3型基因組序列分析及致病性研究.pdf
- 31412.phenylobacteriumzucineum全基因組測(cè)序及序列分析
- 空間飛行誘發(fā)水稻基因組不穩(wěn)定序列特征分析.pdf
- 調(diào)控元件在全基因組上的識(shí)別研究以及在線分析平臺(tái)的構(gòu)建.pdf
評(píng)論
0/150
提交評(píng)論