973 2012 基于新一代測(cè)序的生物信息學(xué)理論與方法_第1頁(yè)
已閱讀1頁(yè),還剩24頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、<p>  一、關(guān)鍵科學(xué)問(wèn)題及研究?jī)?nèi)容</p><p>  解讀生物細(xì)胞復(fù)雜的信息調(diào)控系統(tǒng)是理解各種復(fù)雜生命現(xiàn)象機(jī)理的關(guān)鍵。新一代測(cè)序技術(shù)為我們提供了從多個(gè)角度觀測(cè)這個(gè)復(fù)雜調(diào)控系統(tǒng)的可能,但要從數(shù)量巨大、類(lèi)型復(fù)雜的測(cè)序數(shù)據(jù)中挖掘出規(guī)律性的知識(shí)、并通過(guò)整合這些知識(shí)形成對(duì)系統(tǒng)的整體認(rèn)識(shí),需要解決一系列生物信息學(xué)理論與方法問(wèn)題。</p><p>  本項(xiàng)目擬結(jié)合基因組、表觀基因組、轉(zhuǎn)錄

2、組、調(diào)控組、宏基因組等各個(gè)生物層面上的應(yīng)用,從數(shù)據(jù)產(chǎn)生的源頭、數(shù)據(jù)處理的各個(gè)環(huán)節(jié)和對(duì)復(fù)雜生物機(jī)理的解析等方面入手,系統(tǒng)研究新一代測(cè)序相關(guān)的一系列生物信息學(xué)問(wèn)題。這些問(wèn)題包括:怎樣建立各種新一代測(cè)序數(shù)據(jù)產(chǎn)生和誤差的數(shù)學(xué)模型?能否通過(guò)對(duì)數(shù)據(jù)模型和后續(xù)應(yīng)用的研究指導(dǎo)測(cè)序的實(shí)驗(yàn)設(shè)計(jì)和技術(shù)改進(jìn)?怎樣通過(guò)算法、軟件、硬件和系統(tǒng)的策略有效應(yīng)對(duì)超海量測(cè)序數(shù)據(jù)帶來(lái)的存儲(chǔ)、傳輸與計(jì)算問(wèn)題?如何通過(guò)信號(hào)處理、模式識(shí)別等手段準(zhǔn)確有效地從ChIP-seq、bis

3、ulfite-seq、3C、RNA-seq、CLIP-seq等類(lèi)型的測(cè)序數(shù)據(jù)中提取各種有效信號(hào)?怎樣建立比較各種信號(hào)的統(tǒng)計(jì)模型?怎樣通過(guò)高分辨率基因組和表觀基因組數(shù)據(jù)識(shí)別各種調(diào)控元件、構(gòu)建調(diào)控系統(tǒng)?如何通過(guò)對(duì)RNA測(cè)序數(shù)據(jù)的處理精細(xì)繪制轉(zhuǎn)錄組、精確構(gòu)建編碼和非編碼基因的轉(zhuǎn)錄譜和剪接加工模式?如何在沒(méi)有參考序列的情況下非監(jiān)督地組裝和識(shí)別宏基因組和宏轉(zhuǎn)錄組中的有效功能單位、進(jìn)而對(duì)微生物群落的功能進(jìn)行刻畫(huà)?如何對(duì)細(xì)胞分化和癌癥發(fā)生發(fā)展等復(fù)雜生

4、物過(guò)程動(dòng)態(tài)地構(gòu)建調(diào)控網(wǎng)絡(luò)、解讀這些過(guò)程中的調(diào)控程序?怎樣將不同層次、不同尺度上的組學(xué)</p><p>  這些問(wèn)題是緊密聯(lián)系的,概括起來(lái),可以總結(jié)為兩類(lèi)科學(xué)問(wèn)題,我們稱之為新一代測(cè)序數(shù)據(jù)的計(jì)算問(wèn)題和推理問(wèn)題。所謂計(jì)算問(wèn)題,主要包括通過(guò)對(duì)數(shù)據(jù)模型的認(rèn)識(shí)改進(jìn)數(shù)據(jù)處理質(zhì)量,通過(guò)對(duì)算法、軟件、存儲(chǔ)和計(jì)算機(jī)體系結(jié)構(gòu)、服務(wù)模式等的研究提高數(shù)據(jù)處理效率和能力等;所謂推理問(wèn)題,則是指通過(guò)對(duì)生物問(wèn)題和測(cè)序數(shù)據(jù)特點(diǎn)兩方面的深入研究,

5、對(duì)于多種類(lèi)型的新一代測(cè)序數(shù)據(jù),提出和發(fā)展有效提取生物學(xué)信息的理論和方法,提出和發(fā)展整合多種組學(xué)數(shù)據(jù)的理論和方法,提出和發(fā)展定量描述復(fù)雜生物網(wǎng)絡(luò)、系統(tǒng)及動(dòng)態(tài)演化的理論與方法,并將這些理論與方法應(yīng)用到細(xì)胞分化、癌癥發(fā)生發(fā)展等復(fù)雜生物過(guò)程調(diào)控系統(tǒng)的解析和建模上,獲得新的生物學(xué)認(rèn)識(shí)。換句話說(shuō),這里的計(jì)算問(wèn)題就是怎樣改進(jìn)和提高超大規(guī)模測(cè)序數(shù)據(jù)的處理方法和處理能力,推理問(wèn)題就是怎樣從復(fù)雜的測(cè)序數(shù)據(jù)中獲取知識(shí)和規(guī)律。對(duì)這兩類(lèi)問(wèn)題的研究相輔相成,構(gòu)成了

6、我們擬研究的新一代生物信息學(xué)理論與方法。</p><p>  圍繞這些關(guān)鍵科學(xué)問(wèn)題,按照新一代測(cè)序數(shù)據(jù)產(chǎn)生、處理、解析、應(yīng)用的主要環(huán)節(jié),本項(xiàng)目擬開(kāi)展的主要研究?jī)?nèi)容可歸納為10項(xiàng),分別針對(duì)上述兩方面的科學(xué)問(wèn)題、按十個(gè)主意研究?jī)?nèi)容展開(kāi)研究:</p><p>  超大規(guī)模測(cè)序數(shù)據(jù)的處理方法與處理能力</p><p> ?。?)對(duì)新一代測(cè)序數(shù)據(jù)產(chǎn)生模型和特點(diǎn)的數(shù)學(xué)描述,以及

7、在此基礎(chǔ)上的新一代測(cè)序?qū)嶒?yàn)設(shè)計(jì)理論與方法。深入理解數(shù)據(jù)產(chǎn)生過(guò)程中可能影響數(shù)據(jù)質(zhì)量的各個(gè)因素,建立數(shù)據(jù)產(chǎn)生的數(shù)學(xué)模型,是更好地處理和應(yīng)用新一代測(cè)序數(shù)據(jù)的基礎(chǔ)。新一代測(cè)序的發(fā)展主要是由測(cè)序技術(shù)自身的發(fā)展推動(dòng)的,尚缺乏從最終應(yīng)用角度對(duì)不同測(cè)序技術(shù)中各個(gè)影響因素的系統(tǒng)研究。我們將在本項(xiàng)目中對(duì)包括Illumina/Solexa、Roche/454、AB/SOLiD和國(guó)產(chǎn)AG-100/200測(cè)序系統(tǒng)在內(nèi)的多種測(cè)序平臺(tái)進(jìn)行實(shí)驗(yàn)設(shè)計(jì)、誤差分析、質(zhì)量評(píng)估

8、和平臺(tái)比較的研究,也包括對(duì)將來(lái)第三代測(cè)序平臺(tái)的相應(yīng)研究,發(fā)展新一代測(cè)序技術(shù)的誤差分析和質(zhì)量控制理論,建立數(shù)據(jù)分布和測(cè)序誤差的數(shù)學(xué)模型,設(shè)計(jì)具有容錯(cuò)和誤差糾正能力的數(shù)據(jù)處理方法,為后續(xù)處理算法提供數(shù)據(jù)模型指導(dǎo),也通過(guò)對(duì)測(cè)序誤差和質(zhì)量控制的研究為測(cè)序技術(shù)本身的發(fā)展提供反饋。另一方面,針對(duì)測(cè)序?qū)嶒?yàn)中可以采用的生物條碼(barcoding)技術(shù)和SOLiD等技術(shù)采用的堿基組合編碼測(cè)序策略,研究在測(cè)序技術(shù)和實(shí)驗(yàn)設(shè)計(jì)中的編碼理論,發(fā)展針對(duì)不同類(lèi)型應(yīng)

9、用的優(yōu)化實(shí)驗(yàn)設(shè)計(jì)策略和方法。</p><p> ?。?)高效的新一代測(cè)序數(shù)據(jù)基本處理算法和工作流,以及跨平臺(tái)測(cè)序數(shù)據(jù)的統(tǒng)合分析。不同類(lèi)型測(cè)序技術(shù)的數(shù)據(jù)有各自的特點(diǎn),但共同特點(diǎn)是數(shù)據(jù)量大、數(shù)據(jù)處理過(guò)程復(fù)雜、對(duì)計(jì)算資源要求高,這些特點(diǎn),制約了生物學(xué)和醫(yī)學(xué)實(shí)驗(yàn)室對(duì)測(cè)序數(shù)據(jù)的應(yīng)用,也構(gòu)成了將來(lái)個(gè)體化基因組發(fā)展的一個(gè)瓶頸。我們將對(duì)各種測(cè)序數(shù)據(jù)的典型處理算法進(jìn)行優(yōu)化,發(fā)展針對(duì)新一代測(cè)序數(shù)據(jù)處理的可視化交互工作流;研究發(fā)展利用

10、GPU/FPGA加速器支持的快速算法,包括大量短序列比對(duì)、從頭組裝、變異位點(diǎn)檢測(cè)等,大大提高常見(jiàn)測(cè)序數(shù)據(jù)處理流程的計(jì)算效率;研究對(duì)多種測(cè)序平臺(tái)數(shù)據(jù)以及基因芯片數(shù)據(jù)的統(tǒng)合分析(meta-analysis),比較不同平臺(tái)的數(shù)據(jù),有效利用平臺(tái)間技術(shù)差異和互補(bǔ)性,并結(jié)合人類(lèi)基因組和變異組數(shù)據(jù)資源,提升數(shù)據(jù)質(zhì)量,消除測(cè)序噪聲。</p><p> ?。?)適應(yīng)大規(guī)模基因組數(shù)據(jù)的數(shù)據(jù)壓縮存儲(chǔ)、傳輸方法和搜索方法,面向深度測(cè)序大

11、數(shù)據(jù)量的計(jì)算模型與體系結(jié)構(gòu)探索。新一代測(cè)序的發(fā)展和推廣應(yīng)用使生物序列數(shù)據(jù)增長(zhǎng)速度遠(yuǎn)遠(yuǎn)超過(guò)了摩爾定律對(duì)計(jì)算機(jī)處理能力增長(zhǎng)的預(yù)期。我們將深入分析各種基因組數(shù)據(jù)的特點(diǎn),針對(duì)性地研究高效數(shù)據(jù)壓縮和傳輸方法,研究新型的數(shù)據(jù)存儲(chǔ)系統(tǒng)構(gòu)架;研究在壓縮空間上進(jìn)行數(shù)據(jù)處理的方法,將存儲(chǔ)、壓縮和處理、應(yīng)用結(jié)合起來(lái)考慮,發(fā)展適應(yīng)超大規(guī)模基因組數(shù)據(jù)的搜索方法;深入分析測(cè)序數(shù)據(jù)的特點(diǎn)和測(cè)序數(shù)據(jù)常見(jiàn)處理任務(wù)對(duì)計(jì)算資源的需求特點(diǎn),探索新的軟硬件模型和可能的新型體系結(jié)

12、構(gòu),探索新的計(jì)算服務(wù)模型在測(cè)序數(shù)據(jù)存儲(chǔ)、傳輸和處理上的應(yīng)用,從計(jì)算技術(shù)上為迎接個(gè)體基因組時(shí)代的到來(lái)做好充分準(zhǔn)備,同時(shí)推動(dòng)我國(guó)相關(guān)信息技術(shù)和產(chǎn)業(yè)的創(chuàng)新發(fā)展。</p><p>  從復(fù)雜的多種測(cè)序數(shù)據(jù)中獲取知識(shí)和規(guī)律</p><p>  (4)基于高通量基因組、表觀基因組數(shù)據(jù)進(jìn)行基因調(diào)控信號(hào)的識(shí)別和調(diào)控元件功能注釋。新一代測(cè)序技術(shù)發(fā)展了ChIP-seq、bisulfite-seq等高通量、高分

13、辨率檢測(cè)表觀遺傳學(xué)特征的實(shí)驗(yàn)技術(shù),能夠揭示基因組中很多原來(lái)被認(rèn)為沒(méi)有功能的區(qū)域或原有技術(shù)無(wú)法檢測(cè)的調(diào)控因素。我們將對(duì)這些數(shù)據(jù)進(jìn)行深入挖掘,研究從中高分辨率檢測(cè)DNA甲基化、組蛋白修飾等表觀遺傳學(xué)因素的方法,結(jié)合基因芯片等其他組學(xué)數(shù)據(jù),開(kāi)展表觀基因組狀態(tài)注釋和功能預(yù)測(cè)、研究啟動(dòng)子注釋及其使用偏好性,研究非編碼RNA的注釋及其對(duì)染色質(zhì)沉默和啟動(dòng)子、增強(qiáng)子活性的影響,研究基因測(cè)序數(shù)據(jù)的染色質(zhì)三維拓?fù)浣Y(jié)構(gòu)功能注釋,建立不同類(lèi)型細(xì)胞間染色質(zhì)三維結(jié)

14、構(gòu)狀態(tài)變化的比較和分析方法,研究基因轉(zhuǎn)錄系統(tǒng)與基因組序列、表觀基因組狀態(tài)間的聯(lián)系。</p><p> ?。?)基于多種組學(xué)數(shù)據(jù)研究細(xì)胞分化和重編程的數(shù)學(xué)模型及腫瘤細(xì)胞基因組演化模型。對(duì)細(xì)胞分化和腫瘤發(fā)生等重要生物過(guò)程內(nèi)在分子調(diào)控機(jī)制的數(shù)學(xué)描述,是真正理解這些生物過(guò)程的關(guān)鍵。新一代測(cè)序提供的高分辨率基因組學(xué)、轉(zhuǎn)錄組學(xué)和表觀基因組學(xué)數(shù)據(jù)為建立這種數(shù)學(xué)描述提供了可能。本項(xiàng)目將比較和用數(shù)學(xué)模型刻畫(huà)不同來(lái)源誘導(dǎo)多能干細(xì)胞與

15、胚胎干細(xì)胞、體細(xì)胞在染色質(zhì)狀態(tài)與基因表達(dá)等方面的差異,分析染色質(zhì)狀態(tài)對(duì)細(xì)胞分化與重編程潛能的影響,建立描述細(xì)胞分化與重編程過(guò)程的動(dòng)態(tài)演化模型,探索利用人工合成方法修改或擾動(dòng)生物調(diào)控回路的關(guān)鍵環(huán)節(jié)。另一方面,將以在我國(guó)發(fā)病率高的肝癌等惡性腫瘤為例,以體細(xì)胞基因突變、染色體重排和表觀遺傳學(xué)修飾等數(shù)據(jù)為切入點(diǎn),研究建立腫瘤多維度演化模型,對(duì)腫瘤發(fā)生和細(xì)胞分化過(guò)程進(jìn)行比較,從演化和發(fā)育角度探索腫瘤發(fā)生發(fā)展的機(jī)制并進(jìn)行數(shù)學(xué)建模。</p>

16、;<p> ?。?)基于RNA測(cè)序的基因表達(dá)和選擇性剪接分析、轉(zhuǎn)錄組分析。系統(tǒng)研究RNA測(cè)序數(shù)據(jù)處理與分析的方法,重點(diǎn)研究基因選擇性剪接模式的定量推斷方法和比較不同樣本間基因剪接模式差異的方法,與基因表達(dá)芯片數(shù)據(jù)進(jìn)行比較研究,從理論上探索特殊選擇性剪接形式的不可分辨問(wèn)題,綜合考慮基因表達(dá)總量、選擇性剪接模式和剪接等位體表達(dá)比例等因素,研究基因差異表達(dá)的概念和組間比較的統(tǒng)計(jì)檢驗(yàn)方法,發(fā)掘不同形式的差異表達(dá)的功能影響,研究非編

17、碼RNA轉(zhuǎn)錄本的表達(dá)規(guī)律,研究不同樣本間或發(fā)育過(guò)程中轉(zhuǎn)錄組變化的比較方法,結(jié)合CLIP-seq數(shù)據(jù)分析基因選擇性剪接調(diào)控網(wǎng)絡(luò)。</p><p>  (7)宏基因組與宏轉(zhuǎn)錄組數(shù)據(jù)的處理方法與功能分析方法研究。新一代測(cè)序的宏基因組、宏轉(zhuǎn)錄組數(shù)據(jù)的處理與單一基因組數(shù)據(jù)處理相比有很多獨(dú)特之處,目前通過(guò)短序列測(cè)序進(jìn)行宏基因組研究的方法尚很少。我們將系統(tǒng)研究短序列宏基因組和轉(zhuǎn)錄組數(shù)據(jù)的拼接、組裝和比較方法,重點(diǎn)研究宏轉(zhuǎn)錄組中

18、的功能轉(zhuǎn)錄本識(shí)別和基于序列統(tǒng)計(jì)特征的宏基因組/轉(zhuǎn)錄組監(jiān)督和非監(jiān)督分類(lèi)方法,研究人體微生物群落特征與人體表型特征之間可能的聯(lián)系,探索微生物基因與宿主基因之間可能的相互作用。</p><p> ?。?)多種組學(xué)數(shù)據(jù)的集成方法研究和生物網(wǎng)絡(luò)的建模、數(shù)學(xué)描述和功能研究。多種測(cè)序技術(shù)和其他組學(xué)技術(shù)以不同的尺度向人們展示了復(fù)雜生物對(duì)象的不同側(cè)面,本項(xiàng)目將研究如何將不同類(lèi)型的組學(xué)數(shù)據(jù)聯(lián)系起來(lái)、構(gòu)建包含多種調(diào)控因素的分子調(diào)控網(wǎng)絡(luò)

19、。進(jìn)一步,系統(tǒng)研究多種類(lèi)型生物分子網(wǎng)絡(luò)的數(shù)學(xué)描述方法,提出能夠從整體上反映網(wǎng)絡(luò)功能特點(diǎn)的數(shù)學(xué)指標(biāo),探索復(fù)雜生理病理現(xiàn)象與基因調(diào)控網(wǎng)絡(luò)或蛋白質(zhì)相互作用網(wǎng)絡(luò)之間整體特性的關(guān)聯(lián),探索定量研究復(fù)雜生物網(wǎng)絡(luò)的新途徑。</p><p> ?。?)深度測(cè)序數(shù)據(jù)中遺傳多態(tài)性信號(hào)的檢測(cè)方法,混合樣本測(cè)序關(guān)聯(lián)研究的統(tǒng)計(jì)遺傳學(xué)理論與方法。與SNP芯片相比,新一代測(cè)序技術(shù)能檢測(cè)人群中發(fā)生頻率更低的遺傳多態(tài)性,為研究由多種罕見(jiàn)突變導(dǎo)致的復(fù)

20、雜疾病開(kāi)辟了道路,但開(kāi)展大規(guī)模的基于深度測(cè)序的遺傳學(xué)研究又提出了很多新的理論與方法問(wèn)題。本項(xiàng)目將深入研究這些問(wèn)題,發(fā)展從短測(cè)序片斷中檢測(cè)點(diǎn)突變、插入刪除、基因組結(jié)構(gòu)變異和拷貝數(shù)變化等遺傳多態(tài)性的有效算法,研究在限定測(cè)序總量的條件下平衡樣本量與測(cè)序深度的實(shí)驗(yàn)設(shè)計(jì)方法,發(fā)展采用混合樣本策略進(jìn)行基因組、外顯子組和RNA測(cè)序的優(yōu)化實(shí)驗(yàn)設(shè)計(jì)理論,研究混合樣本測(cè)序?qū)y(tǒng)計(jì)檢測(cè)功效的影響,為基于新一代測(cè)序的大規(guī)模關(guān)聯(lián)研究奠定理論基礎(chǔ)。</p>

21、;<p> ?。?0)應(yīng)用新一代測(cè)序數(shù)據(jù)和統(tǒng)計(jì)遺傳學(xué)分析研究腫瘤演化過(guò)程和分子標(biāo)記。綜合運(yùn)用本項(xiàng)目取得的理論與方法成果,用群體遺傳學(xué)方法研究癌細(xì)胞群體演化規(guī)律,選擇對(duì)我國(guó)人民健康影響極大的肺癌作為研究對(duì)象,針對(duì)非小細(xì)胞肺癌的侵襲和轉(zhuǎn)移,采用混合樣本策略進(jìn)行新一代測(cè)序,從基因結(jié)構(gòu)、拷貝數(shù)變異、剪接體變異及非編碼RNA等水平上尋找各類(lèi)型非小細(xì)胞肺癌的分子特征,為研究這一惡性腫瘤的早期診斷、預(yù)后分析和理解其分子機(jī)理提供有價(jià)值的線

22、索。</p><p><b>  二、預(yù)期目標(biāo)</b></p><p>  本項(xiàng)目的總體目標(biāo)是,基于和圍繞新一代測(cè)序技術(shù)相關(guān)的一系列科學(xué)問(wèn)題,研究高效處理、分析、挖掘和整合超大規(guī)模測(cè)序數(shù)據(jù)和其他組學(xué)數(shù)據(jù)的生物信息學(xué)模型、方法、算法和軟件,發(fā)展新的生物信息學(xué)理論與方法,促進(jìn)新一代測(cè)序數(shù)據(jù)的有效應(yīng)用,促進(jìn)從海量數(shù)據(jù)到科學(xué)知識(shí)的轉(zhuǎn)化,推動(dòng)對(duì)復(fù)雜生命現(xiàn)象內(nèi)在信息調(diào)控系統(tǒng)的認(rèn)識(shí)

23、,推動(dòng)相關(guān)信息技術(shù)的發(fā)展,使我國(guó)生物信息學(xué)研究進(jìn)入世界前沿行列。</p><p><b>  五年的預(yù)期目標(biāo)是:</b></p><p>  建立多種新一代測(cè)序數(shù)據(jù)的數(shù)學(xué)模型和質(zhì)量控制方法,建立面向新一代測(cè)序的編碼和實(shí)驗(yàn)設(shè)計(jì)理論。這些理論和方法,將對(duì)測(cè)序數(shù)據(jù)處理提供重要的指導(dǎo),也為測(cè)序技術(shù)的改進(jìn)提供借鑒。</p><p>  建立適應(yīng)多種平臺(tái)、

24、針對(duì)多種應(yīng)用的新一代測(cè)序數(shù)據(jù)處理方法、算法和軟件體系,包括測(cè)序讀段的回帖、拼接、糾錯(cuò)、多態(tài)性檢測(cè)、蛋白質(zhì)結(jié)合位點(diǎn)信號(hào)檢測(cè)與比較、表觀遺傳學(xué)狀態(tài)標(biāo)定和功能元件注釋、基因表達(dá)估計(jì)和剪接模式估計(jì)、基因表達(dá)比較、宏轉(zhuǎn)錄組組裝與比較等。</p><p>  實(shí)現(xiàn)面向新一代大數(shù)據(jù)量序列數(shù)據(jù)處理的硬件加速方法,發(fā)展基于參考序列的海量測(cè)序數(shù)據(jù)壓縮、存儲(chǔ)和傳輸方法,發(fā)展面向海量基因組數(shù)據(jù)的搜索引擎技術(shù),發(fā)展適應(yīng)深度測(cè)序數(shù)據(jù)和個(gè)體化

25、基因組數(shù)據(jù)處理的可重構(gòu)計(jì)算系統(tǒng)結(jié)構(gòu)和編程模型。</p><p>  對(duì)高等真核生物中大量存在的選擇性剪接基因,提出定性和定量分析基因表達(dá)和基因差異表達(dá)的新理論框架,對(duì)選擇性剪接的功能和調(diào)控形成更系統(tǒng)的認(rèn)識(shí),對(duì)基因差異剪接表達(dá)在復(fù)雜疾病中的作用得到新的認(rèn)識(shí)。</p><p>  針對(duì)新一代測(cè)序技術(shù)的特點(diǎn),發(fā)展基于混合樣本測(cè)序的統(tǒng)計(jì)遺傳學(xué)新理論和方法,建立基于新一代測(cè)序數(shù)據(jù)進(jìn)行大規(guī)模關(guān)聯(lián)研究的

26、優(yōu)化實(shí)驗(yàn)策略。</p><p>  發(fā)展集成新一代基因組學(xué)數(shù)據(jù)和其他數(shù)據(jù)構(gòu)建分子調(diào)控網(wǎng)絡(luò)的方法,和定量分析生物網(wǎng)絡(luò)功能的數(shù)學(xué)模型;綜合應(yīng)用多種測(cè)序數(shù)據(jù)提供的信息,建立細(xì)胞分化、癌癥發(fā)生發(fā)展等過(guò)程中基因調(diào)控與基因組演化的數(shù)學(xué)模型,在對(duì)肝癌、肺癌等疾病的機(jī)理分析和分子標(biāo)志物發(fā)現(xiàn)上取得進(jìn)展。</p><p>  主要研究成果在國(guó)際權(quán)威期刊或重要學(xué)術(shù)會(huì)議上發(fā)表。預(yù)計(jì)發(fā)表重要學(xué)術(shù)論文100篇以上,部

27、分技術(shù)性成果以專利和軟件著作權(quán)等形式發(fā)表,預(yù)計(jì)申請(qǐng)專利或軟件著作權(quán)5-10項(xiàng)。通過(guò)發(fā)表高水平成果、在國(guó)際會(huì)議做特邀報(bào)告、主辦頂尖國(guó)際學(xué)術(shù)會(huì)議等,在國(guó)際同行中建立重要學(xué)術(shù)影響。</p><p>  通過(guò)本項(xiàng)目研究,培養(yǎng)一批具有堅(jiān)實(shí)的生物信息學(xué)基礎(chǔ)、善于處理和解析超大規(guī)模生物學(xué)數(shù)據(jù)、善于從龐雜的數(shù)據(jù)中探尋復(fù)雜生物學(xué)規(guī)律的年輕科學(xué)家。預(yù)計(jì)培養(yǎng)博士生、碩士生各20-30名。</p><p><

28、;b>  三、研究方案</b></p><p><b>  總體思路和創(chuàng)新點(diǎn)</b></p><p>  新一代測(cè)序包含了一系列復(fù)雜的實(shí)驗(yàn)技術(shù),它對(duì)生物學(xué)研究帶來(lái)的革命是多方面的,很多分子和系統(tǒng)生物學(xué)問(wèn)題都需要通過(guò)深度測(cè)序進(jìn)行研究;同時(shí),對(duì)信息科學(xué)與技術(shù)的挑戰(zhàn)也是系統(tǒng)性的,很多傳統(tǒng)的生物信息學(xué)問(wèn)題都需要重新研究。針對(duì)這些特點(diǎn),本項(xiàng)目將從測(cè)序數(shù)據(jù)產(chǎn)生、

29、處理、解析、應(yīng)用的各個(gè)主要環(huán)節(jié)進(jìn)行深入剖析,對(duì)其中的生物信息學(xué)問(wèn)題進(jìn)行系統(tǒng)研究。研究過(guò)程將采用理論研究與實(shí)驗(yàn)研究相結(jié)合,科學(xué)問(wèn)題與技術(shù)問(wèn)題相結(jié)合,生物學(xué)研究與信息處理、計(jì)算技術(shù)和統(tǒng)計(jì)學(xué)研究相結(jié)合的策略。整個(gè)項(xiàng)目研究將圍繞統(tǒng)一的總體學(xué)術(shù)思路來(lái)進(jìn)行。</p><p>  首先,從數(shù)據(jù)產(chǎn)生的源頭開(kāi)展生物信息學(xué)研究。發(fā)揮項(xiàng)目參加團(tuán)隊(duì)同時(shí)擁有各種主流第二代測(cè)序平臺(tái)和自主知識(shí)產(chǎn)權(quán)國(guó)產(chǎn)測(cè)序平臺(tái)的優(yōu)勢(shì),針對(duì)各種平臺(tái)分析其數(shù)據(jù)特點(diǎn)

30、和噪聲規(guī)律,結(jié)合后期處理需求研究影響數(shù)據(jù)質(zhì)量的各種因素,以從數(shù)據(jù)中挖掘生物學(xué)規(guī)律的最終應(yīng)用目標(biāo)來(lái)研究?jī)?yōu)化的實(shí)驗(yàn)設(shè)計(jì)。</p><p>  同時(shí),提取各種測(cè)序數(shù)據(jù)處理任務(wù)中最具共性的信息技術(shù)問(wèn)題,從算法、軟件、硬件、系統(tǒng)、服務(wù)模式等多角度進(jìn)行深入研究,一方面研究對(duì)現(xiàn)有方法的改進(jìn)和現(xiàn)有技術(shù)的巧妙應(yīng)用,另一方面從長(zhǎng)遠(yuǎn)考慮,力求發(fā)展新的技術(shù)體系,從根本上解決不斷增長(zhǎng)的基因和基因組數(shù)據(jù)所提出的計(jì)算和存儲(chǔ)挑戰(zhàn)。</p&

31、gt;<p>  更重要的,本項(xiàng)目充分意識(shí)到,數(shù)據(jù)的產(chǎn)出和積累不是目的,而是探究復(fù)雜生命系統(tǒng)的手段,真正的目的是通過(guò)數(shù)據(jù)挖掘出知識(shí),推進(jìn)對(duì)生命體內(nèi)在信息調(diào)控系統(tǒng)的認(rèn)識(shí),進(jìn)而對(duì)健康、農(nóng)業(yè)、環(huán)境、能源等相關(guān)研究領(lǐng)域做出貢獻(xiàn)。因此,數(shù)據(jù)的獲取不能是盲目的,數(shù)據(jù)的處理也不能是孤立的,而是必須納入到整個(gè)研究的大循環(huán)中進(jìn)行研究。這是本項(xiàng)目總體學(xué)術(shù)思路的關(guān)鍵。我們將以細(xì)胞分化、癌癥發(fā)生發(fā)展等過(guò)程中的具體科學(xué)問(wèn)題為例,以最終對(duì)生物過(guò)程背后

32、分子調(diào)控程序進(jìn)行數(shù)學(xué)建模為目標(biāo),引導(dǎo)對(duì)新一代測(cè)序數(shù)據(jù)相關(guān)的一系列生物信息學(xué)理論、技術(shù)與方法的研究。與目前國(guó)內(nèi)外多數(shù)關(guān)于新一代測(cè)序數(shù)據(jù)處理的研究大都僅關(guān)注某個(gè)獨(dú)立環(huán)節(jié)相比,這一學(xué)術(shù)思路是本項(xiàng)目最大的特色。</p><p>  這一總體思路是本項(xiàng)目最大的創(chuàng)新點(diǎn),預(yù)期成果的創(chuàng)新點(diǎn)包括新理論、新方法、新系統(tǒng)、新發(fā)現(xiàn)四個(gè)層面。新理論是指,建立新一代測(cè)序數(shù)據(jù)的信號(hào)和噪聲模型理論、選擇性剪接基因表達(dá)和差異表達(dá)的新理論、生物網(wǎng)絡(luò)

33、功能分析的數(shù)學(xué)模型和定量指標(biāo)、混合樣本測(cè)序的統(tǒng)計(jì)遺傳學(xué)新模型;新方法,核心是處理和分析下一代測(cè)序數(shù)據(jù)的方法體系;新系統(tǒng)是,大規(guī)模測(cè)序數(shù)據(jù)存儲(chǔ)和計(jì)算的新的軟硬件系統(tǒng);新發(fā)現(xiàn)是,在細(xì)胞分化和癌癥發(fā)生發(fā)展中的信息調(diào)控規(guī)律和模型方面的新發(fā)現(xiàn)。</p><p>  我們也意識(shí)到,落實(shí)這種整體的、系統(tǒng)的學(xué)術(shù)研究思路并非輕而易舉的事,必須將系統(tǒng)進(jìn)行合理的分解。為此,我們對(duì)核心科學(xué)問(wèn)題進(jìn)行了認(rèn)真梳理,組織國(guó)內(nèi)相關(guān)領(lǐng)域最具優(yōu)勢(shì)的研

34、究力量,將研究?jī)?nèi)容劃分為分工明確又緊密聯(lián)系的五個(gè)課題,在各個(gè)課題的研究中落實(shí)總體思路,通過(guò)項(xiàng)目的有效組織和研究?jī)?nèi)容之間的內(nèi)在聯(lián)系將各個(gè)課題凝聚在一起。下面分別對(duì)各個(gè)課題的技術(shù)路線和預(yù)期創(chuàng)新性進(jìn)行介紹。</p><p><b>  技術(shù)途徑</b></p><p>  課題一、多種新一代測(cè)序技術(shù)的數(shù)據(jù)產(chǎn)生模型與優(yōu)化處理方法</p><p>  本

35、課題重點(diǎn)從測(cè)序數(shù)據(jù)產(chǎn)生源頭開(kāi)始研究數(shù)據(jù)的特點(diǎn)、實(shí)驗(yàn)設(shè)計(jì)策略和數(shù)據(jù)處理技術(shù),是整個(gè)項(xiàng)目的一個(gè)基礎(chǔ)。主要從四個(gè)方面開(kāi)展研究工作,預(yù)期可以在對(duì)數(shù)據(jù)產(chǎn)生和實(shí)驗(yàn)設(shè)計(jì)的數(shù)學(xué)建模、多種不同平臺(tái)測(cè)序數(shù)據(jù)的聯(lián)合研究和實(shí)用、高效的測(cè)序數(shù)據(jù)處理工作流方面取得創(chuàng)新性的成果。</p><p> ?。?)新一代測(cè)序技術(shù)中的編碼模型及高通量實(shí)驗(yàn)設(shè)計(jì)理論與方法</p><p>  對(duì)基因序列進(jìn)行編碼連接測(cè)序是測(cè)序技術(shù)的一

36、個(gè)重要方向,將信息學(xué)中的編碼理論應(yīng)用于連接測(cè)序技術(shù)中,結(jié)合熒光檢測(cè)的分辨率分析,設(shè)計(jì)可靠的具有糾錯(cuò)能力的多堿基熒光標(biāo)記測(cè)序探針編碼與解碼方法??赏⑿碌臏y(cè)序編碼理論,指導(dǎo)大幅度提高測(cè)序讀長(zhǎng)和速度。由于新一代測(cè)序通量很高,對(duì)于一些特定范圍的測(cè)序?qū)嶒?yàn),可以通過(guò)生物條碼技術(shù)在一個(gè)測(cè)序通道上對(duì)多個(gè)樣本測(cè)序,處理時(shí)再利用解碼程序?qū)?lái)自不同樣本的數(shù)據(jù)分開(kāi);或者,如果測(cè)序目的是檢測(cè)基因組稀有變異,可以采用將多個(gè)樣本按照一定策略進(jìn)行混合測(cè)序,通過(guò)可能

37、的組合模式來(lái)推斷攜帶稀有變異的樣本。在這兩種策略中,都涉及到怎樣更有效設(shè)計(jì)樣本組合模式和編碼方案的問(wèn)題,以最少次數(shù)的測(cè)序?qū)嶒?yàn)來(lái)獲得最多的無(wú)歧義的檢測(cè)結(jié)果。</p><p>  目前發(fā)表的測(cè)序應(yīng)用研究,實(shí)驗(yàn)設(shè)計(jì)很多是根據(jù)經(jīng)費(fèi)和樣本的制約來(lái)進(jìn)行的,缺乏從理論角度對(duì)最優(yōu)實(shí)驗(yàn)方案的設(shè)計(jì)。本項(xiàng)目將對(duì)這一問(wèn)題進(jìn)行系統(tǒng)研究,針對(duì)具體的生物醫(yī)學(xué)研究問(wèn)題,綜合考慮實(shí)驗(yàn)各個(gè)環(huán)節(jié)技術(shù)特點(diǎn),考查實(shí)驗(yàn)中影響最終結(jié)果的主要因素,對(duì)樣本量、測(cè)

38、序深度、多次測(cè)序的批次組合等進(jìn)行分析,發(fā)展能夠從理論上指導(dǎo)實(shí)驗(yàn)方案設(shè)計(jì)的新方法。</p><p> ?。?)新一代測(cè)序數(shù)據(jù)的數(shù)學(xué)模型和質(zhì)量控制方法</p><p>  對(duì)三種最常用的國(guó)外新一代測(cè)序平臺(tái)(Illumina/Solexa、Roche/454、AB/SOLiD)、我國(guó)自主研發(fā)的AG系列測(cè)序平臺(tái)和將來(lái)的第三代測(cè)序,通過(guò)對(duì)實(shí)驗(yàn)環(huán)節(jié)中多種因素的分析,定量研究測(cè)序錯(cuò)誤出現(xiàn)的規(guī)律和與之相關(guān)

39、的因素,建立數(shù)據(jù)的誤差模型,用以指導(dǎo)后續(xù)的數(shù)據(jù)處理算法。在此基礎(chǔ)上,研究不同測(cè)序平臺(tái)的特點(diǎn),研究不同平臺(tái)和不同應(yīng)用的質(zhì)量控制方法以及平臺(tái)選擇和優(yōu)化組合方案。</p><p>  在自主研發(fā)的AG系列新一代測(cè)序平臺(tái)上,研究與測(cè)序編碼技術(shù)相銜接的測(cè)序圖像處理和堿基標(biāo)識(shí)算法,結(jié)合上述誤差模型和組合編碼策略,建立我國(guó)自主知識(shí)產(chǎn)權(quán)的高通量測(cè)序原始數(shù)據(jù)處理算法和軟件。同時(shí),也將這些研究的成果反饋到測(cè)序技術(shù)研發(fā)中,推進(jìn)測(cè)序技術(shù)

40、本身的進(jìn)步。</p><p> ?。?)新一代高通量測(cè)序數(shù)據(jù)的高效處理方法與工作流</p><p>  針對(duì)新一代測(cè)序數(shù)據(jù)量大、數(shù)據(jù)處理過(guò)程復(fù)雜、對(duì)計(jì)算資源要求高等共同特點(diǎn),從硬件環(huán)境和軟件算法兩方面入手,對(duì)測(cè)序數(shù)據(jù)的典型處理算法進(jìn)行優(yōu)化,研究利用GPU(圖形處理單元)/FPGA(可編程邏輯門(mén)陣列)對(duì)算法進(jìn)行硬件化來(lái)大幅度提高系統(tǒng)性能。利用CUDA(統(tǒng)一計(jì)算設(shè)備架構(gòu))編程技術(shù),發(fā)展適用于G

41、PU的高通量測(cè)序數(shù)據(jù)處理算法和應(yīng)用程序。研究可重構(gòu)工作流技術(shù),發(fā)展測(cè)序數(shù)據(jù)處理的可視化交互工作流,實(shí)現(xiàn)各種復(fù)雜處理流程的快速組裝。</p><p>  (4)測(cè)序數(shù)據(jù)的統(tǒng)合分析(meta-analysis)</p><p>  統(tǒng)合分析(亦稱薈萃分析)是指用數(shù)學(xué)和統(tǒng)計(jì)學(xué)方法對(duì)多個(gè)渠道的數(shù)據(jù)資料進(jìn)行定量的綜合分析和概括,以提供比單一數(shù)據(jù)更準(zhǔn)確的結(jié)果。生物學(xué)研究中,針對(duì)同一問(wèn)題往往存在多種類(lèi)型

42、的數(shù)據(jù),包括不同平臺(tái)或不同實(shí)驗(yàn)室的測(cè)序數(shù)據(jù)、早先的基因芯片數(shù)據(jù)等,我們將著重進(jìn)行對(duì)兩類(lèi)統(tǒng)合分析問(wèn)題的研究:一是不同測(cè)序平臺(tái)數(shù)據(jù)的統(tǒng)合分析,比如結(jié)合454和Solexa測(cè)序平臺(tái)的誤差模型,通過(guò)統(tǒng)合分析實(shí)現(xiàn)基因組中重復(fù)序列的精確評(píng)估;二是測(cè)序數(shù)據(jù)與其他關(guān)聯(lián)數(shù)據(jù)的統(tǒng)合分析,比如在人群的遺傳關(guān)聯(lián)圖譜研究中整合個(gè)體基因組測(cè)序與國(guó)際單倍型計(jì)劃(HapMap)數(shù)據(jù)等。</p><p>  課題二、面向新一代測(cè)序大數(shù)據(jù)量的計(jì)算模

43、型與體系結(jié)構(gòu)研究</p><p>  本課題重點(diǎn)從計(jì)算模型和計(jì)算機(jī)體系結(jié)構(gòu)方面研究新一代測(cè)序所面臨的計(jì)算與存儲(chǔ)瓶頸,基本技術(shù)路線是:1、深入發(fā)掘哈希索引(Hash indexing)算法的潛力,實(shí)現(xiàn)高效的讀段回帖和拼接算法;2、充分利用基因組數(shù)據(jù)自身特點(diǎn),研究數(shù)據(jù)壓縮和冗余數(shù)據(jù)刪除技術(shù),實(shí)現(xiàn)高效的數(shù)據(jù)壓縮與存儲(chǔ)方法;3、參考分布式并行系統(tǒng)和MapReduce編程模型,研究實(shí)現(xiàn)針對(duì)高密度壓縮海量基因組數(shù)據(jù)的搜索核心

44、算法;4、在計(jì)算機(jī)體系結(jié)構(gòu)方面,通過(guò)提取各種測(cè)序數(shù)據(jù)處理算法的核心特征,研究可重構(gòu)計(jì)算技術(shù)的混合異構(gòu)系統(tǒng)結(jié)構(gòu)及其編程模型,利用可重構(gòu)計(jì)算技術(shù)突破商業(yè)處理器中的指令集和系統(tǒng)結(jié)構(gòu)的限制,實(shí)現(xiàn)序列回帖、數(shù)據(jù)壓縮及傳輸、數(shù)據(jù)檢索等核心算法的加速。本課題是面向新一代測(cè)序數(shù)據(jù)所提出的現(xiàn)實(shí)和未來(lái)需求的探索性研究,研究成果將不但是生物信息學(xué)領(lǐng)域的創(chuàng)新,也將是對(duì)計(jì)算、存儲(chǔ)技術(shù)自身的重要?jiǎng)?chuàng)新。</p><p>  以最常用的短序列回

45、帖和拼接算法為例,目前方法都采用哈希索引和動(dòng)態(tài)規(guī)劃方法提高程序效率,進(jìn)一步分析表明,影響算法性能的主要原因有:哈希索引表沒(méi)有數(shù)據(jù)局部性,導(dǎo)致CPU的緩存命中率低;建立索引需要消耗大量?jī)?nèi)存;缺乏針對(duì)性的計(jì)算指令,大量的高并行度位運(yùn)算只能在CPU中低效率進(jìn)行;動(dòng)態(tài)規(guī)劃中數(shù)據(jù)緊耦合,在CPU難以并行,需要脈動(dòng)陣列并行系統(tǒng);通用CPU中強(qiáng)大的浮點(diǎn)運(yùn)算單元和深度流水線技術(shù)在基因序列數(shù)據(jù)運(yùn)算中得不到有效利用甚至可能帶來(lái)負(fù)面影響。</p>

46、<p>  基于這些分析和對(duì)計(jì)算機(jī)體系結(jié)構(gòu)發(fā)展歷程的研究,我們?cè)O(shè)想提出新型的可重構(gòu)的體系結(jié)構(gòu)以滿足深度測(cè)序數(shù)據(jù)處理需求,利用商業(yè)的雙CPU系統(tǒng)設(shè)計(jì),包含一個(gè)X86CPU和標(biāo)準(zhǔn)芯片組和基于FPGA的可重構(gòu)協(xié)處理器,動(dòng)態(tài)地載入針對(duì)不同應(yīng)用優(yōu)化的指令,配備大容量高寬帶內(nèi)存系統(tǒng)和統(tǒng)一編址的內(nèi)存空間,X86指令和協(xié)處理器擴(kuò)展指令在同一個(gè)虛地址和實(shí)地址空間中執(zhí)行。在新的結(jié)構(gòu)中,我們擬對(duì)測(cè)序數(shù)據(jù)處理程序進(jìn)行重新設(shè)計(jì),解決哈希表和動(dòng)態(tài)規(guī)劃

47、計(jì)算中的性能瓶頸,發(fā)展深度測(cè)序數(shù)據(jù)處理的軟件包,預(yù)期處理速度至少可以比現(xiàn)有基于CPU的系統(tǒng)高出一個(gè)數(shù)量級(jí)以上。</p><p>  數(shù)量巨大且不斷增加的數(shù)據(jù)量是新一代測(cè)序?qū)π畔⒓夹g(shù)的一大挑戰(zhàn),我們將從數(shù)據(jù)壓縮方法和存儲(chǔ)方法兩方面進(jìn)行深入研究?;蛐蛄袛?shù)據(jù)有很多自身的特點(diǎn),我們希望利用這些特點(diǎn),通過(guò)改進(jìn)基于參考序列的壓縮方法達(dá)到對(duì)巨量測(cè)序數(shù)據(jù)的高密度壓縮,而這其中同樣涉及到高效的序列回帖算法問(wèn)題。我們將把序列回帖與

48、拼接和數(shù)據(jù)壓縮結(jié)合起來(lái)研究,發(fā)展高效的條件壓縮方法,并通過(guò)考慮序列的生物學(xué)性質(zhì)幫助提高壓縮率。</p><p>  目前的測(cè)序數(shù)據(jù)存儲(chǔ)主要依賴傳統(tǒng)的磁盤(pán)陣列技術(shù),隨著數(shù)據(jù)量超摩爾定律速度的增長(zhǎng),預(yù)計(jì)近三五年內(nèi),一個(gè)基因組數(shù)據(jù)中心需要存儲(chǔ)和訪問(wèn)的數(shù)據(jù)量將達(dá)到EB(260)量級(jí),遠(yuǎn)非當(dāng)前的磁盤(pán)陣列技術(shù)能夠解決,十分需要前瞻性地對(duì)存儲(chǔ)方法和系統(tǒng)結(jié)構(gòu)進(jìn)行研究。這里的主要問(wèn)題是存儲(chǔ)容量和訪問(wèn)速度。在硬件層次,采用分層管理的

49、異構(gòu)介質(zhì)分級(jí)存儲(chǔ)系統(tǒng)是擬發(fā)展的方向,將SSD固態(tài)硬盤(pán)、磁盤(pán)、磁帶、光盤(pán)等不同存儲(chǔ)介質(zhì)通過(guò)高速網(wǎng)絡(luò)整合成透明的邏輯存儲(chǔ)池,輔以高效能動(dòng)態(tài)分級(jí)存儲(chǔ)管理軟件,有效解決數(shù)據(jù)中心內(nèi)冷熱數(shù)據(jù)的合理存放,在可以控制的成本內(nèi)實(shí)現(xiàn)EB級(jí)存儲(chǔ)。在軟件層次,深入研究面向基因組序列的冗余數(shù)據(jù)刪除技術(shù)以降低對(duì)物理存儲(chǔ)容量的需求,結(jié)合高性能序列數(shù)據(jù)計(jì)算系統(tǒng)實(shí)現(xiàn)在有限的計(jì)算代價(jià)下高效的冗余數(shù)據(jù)刪除。針對(duì)訪問(wèn)速度問(wèn)題,擬采用集群化Scale-out的方法解決數(shù)據(jù)I/O

50、瓶頸問(wèn)題,通過(guò)多個(gè)廉價(jià)X86處理節(jié)點(diǎn)達(dá)到比傳統(tǒng)高端存儲(chǔ)更優(yōu)的性能。</p><p>  從海量的數(shù)據(jù)進(jìn)行檢索和查詢是測(cè)序數(shù)據(jù)應(yīng)用中的一個(gè)基本需求?;蚪M數(shù)據(jù)屬于比較典型的非結(jié)構(gòu)化數(shù)據(jù),無(wú)法利用現(xiàn)有數(shù)據(jù)庫(kù)技術(shù)進(jìn)行高效的檢索與查詢,存儲(chǔ)經(jīng)過(guò)高度壓縮的數(shù)據(jù)更增加了檢索和查詢的難度。我們將充分考慮測(cè)序數(shù)據(jù)在壓縮、存儲(chǔ)和處理方案上的特點(diǎn),參考分布式并行系統(tǒng)和針對(duì)大規(guī)模數(shù)據(jù)的MapReduce編程模型,研究發(fā)展適應(yīng)海量基因組

51、數(shù)據(jù)的搜索引擎核心算法和軟件。</p><p>  課題三、基于新一代表觀基因組測(cè)序數(shù)據(jù)的細(xì)胞分化和腫瘤發(fā)生模型研究</p><p>  數(shù)據(jù)的采集、存儲(chǔ)和處理是基于新一代測(cè)序開(kāi)展科學(xué)研究的基礎(chǔ),而從數(shù)據(jù)中挖掘出知識(shí)、促進(jìn)人類(lèi)對(duì)生命現(xiàn)象機(jī)理的認(rèn)識(shí)才是研究的根本任務(wù)。本項(xiàng)目的后三個(gè)課題就是從不同層面對(duì)深度測(cè)序數(shù)據(jù)中進(jìn)行知識(shí)的提取和挖掘。本課題重點(diǎn)研究基因組各種功能元件的識(shí)別、表觀遺傳學(xué)信息的

52、提取和功能分析、以及在此基礎(chǔ)上對(duì)細(xì)胞分化和腫瘤發(fā)生過(guò)程進(jìn)行數(shù)學(xué)建模,預(yù)期將獲得對(duì)表觀遺傳調(diào)控和細(xì)胞分化、腫瘤發(fā)生機(jī)理的新認(rèn)識(shí)。</p><p> ?。?)表觀基因組測(cè)序數(shù)據(jù)處理方法及基因調(diào)控元件的識(shí)別和功能注釋</p><p>  與基因組測(cè)序不同,對(duì)用于功能研究的各種復(fù)合的測(cè)序數(shù)據(jù),比如ChIP-seq轉(zhuǎn)錄因子結(jié)合位點(diǎn)測(cè)序、bisulfite-seq甲基化測(cè)序、3C染色質(zhì)結(jié)構(gòu)測(cè)序等,除了

53、讀段回帖等基本處理外,最主要的處理任務(wù)是從數(shù)據(jù)中準(zhǔn)確檢測(cè)有效信號(hào)。我們將采用混合概率模型和現(xiàn)代信號(hào)處理技術(shù),結(jié)合測(cè)序數(shù)據(jù)誤差模型,發(fā)展高分辨率識(shí)別轉(zhuǎn)錄因子結(jié)合位點(diǎn)、DNA甲基化、組蛋白修飾區(qū)域、染色質(zhì)結(jié)構(gòu)等信號(hào)的方法;將測(cè)序數(shù)據(jù)與DNA序列特征分析相結(jié)合,精細(xì)注釋蛋白質(zhì)編碼基因、基因間區(qū)miRNA和長(zhǎng)非編碼RNA基因的啟動(dòng)子,包括單向和雙向啟動(dòng)子及分歧啟動(dòng)子;通過(guò)綜合測(cè)序數(shù)據(jù)和比較基因組學(xué)、表觀遺傳學(xué)和轉(zhuǎn)錄組數(shù)據(jù),系統(tǒng)地注釋基因組上的各

54、種非編碼RNA;收集或采集人和小鼠胚胎干細(xì)胞、體細(xì)胞和腫瘤細(xì)胞等多種細(xì)胞的DNA甲基化和組蛋白修飾數(shù)據(jù),用統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法劃分染色質(zhì)狀態(tài),建立基因組功能元件、DNA甲基化和染色質(zhì)狀態(tài)之間的聯(lián)系,分析細(xì)胞在不同分化階段的表觀遺傳學(xué)變化,建立表觀遺傳學(xué)調(diào)控網(wǎng)絡(luò)并進(jìn)行實(shí)驗(yàn)驗(yàn)證。</p><p> ?。?)分析細(xì)胞分化過(guò)程的動(dòng)態(tài)表觀基因組學(xué)數(shù)據(jù),建立細(xì)胞狀態(tài)轉(zhuǎn)化的數(shù)學(xué)模型</p><p>  

55、收集和采集細(xì)胞分化不同狀態(tài)的基因組學(xué)和表觀基因組學(xué)測(cè)序數(shù)據(jù),通過(guò)對(duì)數(shù)據(jù)的信號(hào)處理和模式識(shí)別分析,發(fā)現(xiàn)與細(xì)胞狀態(tài)變化相關(guān)的基因組學(xué)和表觀基因組學(xué)標(biāo)志,建立調(diào)控網(wǎng)絡(luò)模型。分析不同分化階段的調(diào)控網(wǎng)絡(luò),借鑒物理學(xué)中勢(shì)能的概念和信息論中熵的原理,發(fā)展通過(guò)表觀遺傳調(diào)控網(wǎng)絡(luò)描述細(xì)胞分化能力的“分化勢(shì)能”概念,定量刻畫(huà)細(xì)胞分化狀態(tài)。在此基礎(chǔ)上,用基因組學(xué)與表觀遺傳學(xué)標(biāo)志和分化勢(shì)能建立細(xì)胞分化的坐標(biāo)空間,結(jié)合蛋白質(zhì)相互作用、細(xì)胞信號(hào)通路等信息,尋找網(wǎng)絡(luò)中

56、可以調(diào)控細(xì)胞狀態(tài)間相互轉(zhuǎn)化的關(guān)鍵環(huán)節(jié)。通過(guò)計(jì)算機(jī)仿真對(duì)細(xì)胞分化和重編程過(guò)程進(jìn)行模擬,設(shè)計(jì)細(xì)胞實(shí)驗(yàn)對(duì)關(guān)鍵環(huán)節(jié)進(jìn)行驗(yàn)證。</p><p> ?。?)綜合運(yùn)用新一代測(cè)序與其他組學(xué)數(shù)據(jù),構(gòu)建腫瘤細(xì)胞演化的數(shù)學(xué)模型</p><p>  選擇肝癌這一對(duì)我國(guó)人民健康有重大影響的疾病作為研究對(duì)象,收集正常、慢性肝炎、肝硬化、肝癌的序貫樣本并應(yīng)用新一代測(cè)序技術(shù)進(jìn)行DNA和RNA測(cè)序,利用數(shù)據(jù)處理與分析方法的

57、研究成果,檢測(cè)體細(xì)胞突變、染色體重排與基因拷貝數(shù)變異、啟動(dòng)子甲基化異常和RNA轉(zhuǎn)錄后變異等可能與肝癌發(fā)生發(fā)展過(guò)程相關(guān)的因素,結(jié)合其他組學(xué)數(shù)據(jù),探索建立腫瘤發(fā)生過(guò)程的演化數(shù)學(xué)模型。系統(tǒng)收集多發(fā)性肝癌和肝癌血管侵犯(LVI)、淋巴結(jié)轉(zhuǎn)移、肺轉(zhuǎn)移、術(shù)后復(fù)發(fā)等樣本,通過(guò)高通量測(cè)序或基因芯片比較原發(fā)腫瘤和轉(zhuǎn)移灶、多原發(fā)灶及腫瘤復(fù)發(fā)前后樣本之間的差異信號(hào),應(yīng)用腫瘤發(fā)生模型分析轉(zhuǎn)移和復(fù)發(fā)過(guò)程中的信號(hào)變化路徑,建立腫瘤轉(zhuǎn)移和復(fù)發(fā)的數(shù)學(xué)模型。通過(guò)動(dòng)物實(shí)驗(yàn)

58、對(duì)模型的關(guān)鍵環(huán)節(jié)進(jìn)行驗(yàn)證。進(jìn)一步,通過(guò)生物信息學(xué)與細(xì)胞實(shí)驗(yàn)相結(jié)合,探索腫瘤干細(xì)胞演化模型,利用新一代測(cè)序檢測(cè)腫瘤干細(xì)胞在不同刺激條件下的DNA變異水平和甲基化位點(diǎn)動(dòng)態(tài)變化,系統(tǒng)描述腫瘤干細(xì)胞自我更新和不對(duì)稱分化等方面的分子過(guò)程。</p><p>  課題四、新一代轉(zhuǎn)錄組數(shù)據(jù)處理與網(wǎng)絡(luò)集成分析的理論與方法</p><p>  在生物分子調(diào)控系統(tǒng)中,編碼和非編碼基因的轉(zhuǎn)錄是一個(gè)關(guān)鍵的環(huán)節(jié),存儲(chǔ)

59、在基因組中的遺傳信息、表觀遺傳學(xué)的調(diào)控作用,都是通過(guò)轉(zhuǎn)錄過(guò)程發(fā)揮作用。轉(zhuǎn)錄組學(xué)就是對(duì)轉(zhuǎn)錄的整體研究。本課題重點(diǎn)圍繞轉(zhuǎn)錄組開(kāi)展對(duì)新一代測(cè)序數(shù)據(jù)處理與分析的研究,并研究在轉(zhuǎn)錄組基礎(chǔ)上整合多種數(shù)據(jù)構(gòu)建調(diào)控網(wǎng)絡(luò),以及對(duì)網(wǎng)絡(luò)功能進(jìn)行定量分析的理論與方法,將在選擇性剪接基因表達(dá)的新概念和計(jì)算方法、宏轉(zhuǎn)錄組的功能分析方法和復(fù)雜調(diào)控網(wǎng)絡(luò)的定量功能描述等方面開(kāi)展創(chuàng)新性的探索。</p><p>  對(duì)轉(zhuǎn)錄組測(cè)序數(shù)據(jù)研究的基礎(chǔ)是RNA

60、-Seq數(shù)據(jù)讀段回帖、基因表達(dá)模式推斷和表達(dá)量估計(jì)。由于人類(lèi)基因大量存在剪接和選擇性剪接,RNA-Seq數(shù)據(jù)回帖比基因組測(cè)序數(shù)據(jù)回帖更具有挑戰(zhàn)性。本課題擬結(jié)合轉(zhuǎn)錄本特點(diǎn)的動(dòng)態(tài)哈希表技術(shù),實(shí)現(xiàn)外顯子跨越讀段的快速回帖,基于隱馬爾科夫模型等方法推斷選擇性剪接基因的表達(dá)模式,建立考慮讀段分布特點(diǎn)的基因和選擇性剪接等位型表達(dá)量估計(jì)方法。同時(shí),根據(jù)對(duì)當(dāng)前測(cè)序技術(shù)數(shù)據(jù)產(chǎn)生模型的認(rèn)識(shí),建立各種剪接模式及其組合下測(cè)序數(shù)據(jù)的正演模型,通過(guò)算法反演剪接模式

61、及其表達(dá)量,系統(tǒng)研究現(xiàn)有測(cè)序技術(shù)下的不可分辨組合,并通過(guò)模型研究完全區(qū)分各種組合對(duì)測(cè)序數(shù)據(jù)的要求,為第二代測(cè)序的實(shí)驗(yàn)優(yōu)化和第三代測(cè)序的發(fā)展指出方向。</p><p>  對(duì)微生物群落的宏基因組和宏轉(zhuǎn)錄組測(cè)序是新一代測(cè)序應(yīng)用的一個(gè)重要發(fā)展方向,研究生物體攜帶的微生物群落與宿主生理病理表型之間的聯(lián)系,是系統(tǒng)生物學(xué)研究的一個(gè)嶄新方向。宏基因組和轉(zhuǎn)錄組測(cè)序數(shù)據(jù)處理與單一物種測(cè)序數(shù)據(jù)處理有很多共同的任務(wù),可以采用本項(xiàng)目研究

62、的各種數(shù)據(jù)處理方法,但更有自己獨(dú)特的特點(diǎn)。將針對(duì)宏基因組和轉(zhuǎn)錄組數(shù)據(jù),我們將研究不依賴序列比對(duì)的讀段序列分析方法,通過(guò)統(tǒng)計(jì)k字詞的出現(xiàn)頻率,用模式識(shí)別方法對(duì)宏基因組/轉(zhuǎn)錄組進(jìn)行分析。進(jìn)一步,重點(diǎn)研究宏轉(zhuǎn)錄組數(shù)據(jù)中跨物種的基因轉(zhuǎn)錄本識(shí)別和局部拼接,通過(guò)比較不同樣本的宏轉(zhuǎn)錄組表達(dá)譜,選擇特征,實(shí)現(xiàn)對(duì)微生物群落功能的分類(lèi),探索宏轉(zhuǎn)錄組表達(dá)譜與宿主狀態(tài)之間的聯(lián)系。</p><p>  基因的轉(zhuǎn)錄受到轉(zhuǎn)錄因子和多種表觀遺傳

63、學(xué)因素的調(diào)控,而轉(zhuǎn)錄后又通過(guò)其蛋白質(zhì)或RNA產(chǎn)物參與對(duì)其他基因的調(diào)控,或者與其他蛋白質(zhì)發(fā)生相互作用,構(gòu)成了復(fù)雜的轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)。對(duì)高等真核生物,調(diào)控網(wǎng)絡(luò)中還包含了復(fù)雜的、人們目前尚了解很少的剪接調(diào)控網(wǎng)絡(luò)。本課題擬研究整合RNA-seq、ChIP-seq、CLIP-seq等測(cè)序數(shù)據(jù)以及基因芯片、序列模體分析等數(shù)據(jù)構(gòu)建轉(zhuǎn)錄和剪接調(diào)控網(wǎng)絡(luò)的方法,發(fā)展描述存在多元調(diào)控關(guān)系的生物網(wǎng)絡(luò)的數(shù)學(xué)方法,通過(guò)監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)方法對(duì)網(wǎng)絡(luò)進(jìn)行功能

64、分解。從功能角度和遺傳穩(wěn)定性角度探索定量描述網(wǎng)絡(luò)或模塊的整體功能性質(zhì)的統(tǒng)計(jì)量,嘗試發(fā)展定量描述網(wǎng)絡(luò)整體功能的生物信息學(xué)理論與方法,以癌癥疾病等為例探索網(wǎng)絡(luò)功能指標(biāo)與疾病表型的關(guān)聯(lián)。</p><p>  課題五、基于新一代測(cè)序數(shù)據(jù)的統(tǒng)計(jì)遺傳學(xué)新理論、方法與應(yīng)用</p><p>  研究遺傳信息作用的一個(gè)重要途徑是通過(guò)群體樣本數(shù)據(jù)用統(tǒng)計(jì)遺傳學(xué)手段尋找遺傳規(guī)律,如果說(shuō)從細(xì)胞和分子入手探索生物系統(tǒng)

65、機(jī)理是從底向上的方法,那么統(tǒng)計(jì)遺傳學(xué)可以看作是從頂向下的方法。二者各有優(yōu)勢(shì)、相輔相成。從孟德?tīng)栠z傳定律,到摩爾根發(fā)現(xiàn)基因遺傳連鎖、重組規(guī)律,很多生物學(xué)原理都是通過(guò)這種從頂向下的方法發(fā)現(xiàn)的。近年來(lái),隨著基因芯片等高通量技術(shù)的發(fā)展,統(tǒng)計(jì)遺傳學(xué)取得了很大進(jìn)展。新一代測(cè)序?qū)y(tǒng)計(jì)遺傳學(xué)帶來(lái)了很多新的問(wèn)題和機(jī)遇,本課題將對(duì)其中的基本理論和方法進(jìn)行研究,并應(yīng)用于對(duì)癌癥尤其是肺癌的研究,預(yù)期可在混合樣本統(tǒng)計(jì)檢驗(yàn)的理論和對(duì)癌癥分子標(biāo)志物的研究等方面取得創(chuàng)

66、新性成果。</p><p>  基于新一代測(cè)序進(jìn)行統(tǒng)計(jì)遺傳學(xué)研究,首先要發(fā)展從測(cè)序數(shù)據(jù)有效、準(zhǔn)確地檢測(cè)各類(lèi)多態(tài)性信號(hào)的方法和軟件。本課題擬結(jié)合測(cè)序數(shù)據(jù)誤差模型,以貝葉斯模型為基礎(chǔ),發(fā)展準(zhǔn)確鑒定基因組序列中的堿基突變、小片斷缺失/插入和拷貝數(shù)變化的方法;研究外顯子捕獲測(cè)序和酶切測(cè)序中影響序列捕獲效率和酶切效率的因素,建立統(tǒng)計(jì)回歸模型進(jìn)行校正;針對(duì)混合樣本基因組或外顯子測(cè)序,發(fā)展DNA序列變異識(shí)別方法尤其是稀有變異的

67、識(shí)別方法,以及混合樣本RNA測(cè)序中剪接變異的識(shí)別方法;研究新一代測(cè)序數(shù)據(jù)中對(duì)基因型缺失數(shù)據(jù)的估計(jì)策略,以及從群體全基因組數(shù)據(jù)中準(zhǔn)確檢測(cè)近期正選擇突變的方法。</p><p>  混合樣本測(cè)序是在有限成本下進(jìn)行大規(guī)模群體遺傳學(xué)研究的有效途徑,但關(guān)于混合樣本測(cè)序?qū)y(tǒng)計(jì)檢測(cè)功效的影響和如何優(yōu)化混合樣本測(cè)序方案,尚沒(méi)有很好的理論。我們將研究建立混合樣本基因組、外顯子組和RNA測(cè)序?qū)嶒?yàn)優(yōu)化設(shè)計(jì)的基本理論,根據(jù)混合樣本測(cè)序的

68、性質(zhì)重建用于基因組、外顯子組及RNA測(cè)序的分析方法,將統(tǒng)計(jì)學(xué)中混合數(shù)據(jù)分析、不完全數(shù)據(jù)分析、分布拖尾分析的理論和方法應(yīng)用于混合測(cè)序數(shù)據(jù)的理論模擬與分析之中,研究不同測(cè)序深度下測(cè)序數(shù)據(jù)的統(tǒng)計(jì)學(xué)性質(zhì),通過(guò)對(duì)數(shù)據(jù)的模擬完善理論和方法研究。</p><p>  綜合運(yùn)用新一代測(cè)序技術(shù)和上述研究成果,以對(duì)我國(guó)人民健康影響極大的非小細(xì)胞肺癌(NSCLC)為例進(jìn)行應(yīng)用研究,擬通過(guò)合作者收集各類(lèi)NSCLC(包括腺癌、鱗癌、大細(xì)胞

69、癌和腺鱗癌)和正常對(duì)照樣本,建立各類(lèi)肺癌和正常組織的混合樣本池,進(jìn)行DNA和RNA測(cè)序,尋找與肺癌侵襲和轉(zhuǎn)移相關(guān)的分子標(biāo)志物,尤其是可能的新剪接體和miRNA,通過(guò)必要的細(xì)胞和分子實(shí)驗(yàn)驗(yàn)證其生物學(xué)功能。同時(shí),通過(guò)對(duì)腫瘤細(xì)胞群體演化的研究,深入分析腫瘤基因組改變發(fā)生的模式,篩選轉(zhuǎn)錄調(diào)控元件上的腫瘤特異性序列變異,探索癌癥發(fā)生發(fā)展的特征。</p><p><b>  課題組織</b></p

70、><p>  課題1:多種新一代測(cè)序技術(shù)的數(shù)據(jù)產(chǎn)生模型與優(yōu)化處理方法</p><p>  研究?jī)?nèi)容:重點(diǎn)從各種測(cè)序技術(shù)平臺(tái)數(shù)據(jù)產(chǎn)生的源頭開(kāi)始研究數(shù)據(jù)的特點(diǎn)、實(shí)驗(yàn)設(shè)計(jì)策略和數(shù)據(jù)處理方法,研究?jī)?nèi)容和目標(biāo)包括:發(fā)展新一代測(cè)序技術(shù)中的編碼模型和高通量實(shí)驗(yàn)設(shè)計(jì)理論與方法,研究各種測(cè)序平臺(tái)數(shù)據(jù)的數(shù)學(xué)模型和質(zhì)量控制方法,發(fā)展高通量測(cè)序數(shù)據(jù)的高效處理方法與工作流,研究跨平臺(tái)測(cè)序數(shù)據(jù)的統(tǒng)合分析方法。</p

71、><p>  預(yù)期目標(biāo):建立多種新一代測(cè)序數(shù)據(jù)的數(shù)學(xué)模型和質(zhì)量控制方法,建立面向新一代測(cè)序的編碼和實(shí)驗(yàn)設(shè)計(jì)理論。建立適應(yīng)多種平臺(tái)、針對(duì)多種應(yīng)用的新一代測(cè)序數(shù)據(jù)處理方法、算法、可重構(gòu)軟件工作流和和跨平臺(tái)數(shù)據(jù)統(tǒng)合分析方法。在國(guó)際權(quán)威期刊或重要學(xué)術(shù)會(huì)議上發(fā)表重要學(xué)術(shù)論文20篇以上,申請(qǐng)專利或軟件著作權(quán)2-5項(xiàng)。培養(yǎng)博士生、碩士生15名左右。</p><p>  承擔(dān)單位:中科院上海生命科學(xué)研究院、東

72、南大學(xué)、上海生物信息技術(shù)研究中心</p><p><b>  課題負(fù)責(zé)人:李軒</b></p><p>  學(xué)術(shù)骨干:李軒、陸祖宏、孫嘯、李園園、顧萬(wàn)君、張國(guó)慶、謝雪英、趙瓊一</p><p>  經(jīng)費(fèi)比例:24.9%</p><p>  課題2:面向新一代測(cè)序大數(shù)據(jù)量的計(jì)算模型與體系結(jié)構(gòu)研究</p>&l

73、t;p>  研究?jī)?nèi)容:重點(diǎn)從計(jì)算機(jī)科學(xué)角度系統(tǒng)研究新一代測(cè)序巨大的數(shù)據(jù)量帶來(lái)的挑戰(zhàn)。研究?jī)?nèi)容和目標(biāo)包括:發(fā)展高效的短序列回帖與拼接算法,結(jié)合大量序列回帖與拼接的算法需求探索優(yōu)化計(jì)算機(jī)體系結(jié)構(gòu)和編程模型的方法,研究針對(duì)基因組數(shù)據(jù)的高比率數(shù)據(jù)壓縮算法和冗余數(shù)據(jù)刪除方法,實(shí)現(xiàn)高密度數(shù)據(jù)壓縮與存儲(chǔ),針對(duì)高密度壓縮的海量基因組數(shù)據(jù)發(fā)展高性能、高可靠的基因組數(shù)據(jù)搜索方法。</p><p>  預(yù)期目標(biāo):實(shí)現(xiàn)面向新一代大

74、數(shù)據(jù)量序列數(shù)據(jù)處理的硬件加速方法,發(fā)展基于參考序列的海量測(cè)序數(shù)據(jù)壓縮、存儲(chǔ)和傳輸方法,發(fā)展面向海量基因組數(shù)據(jù)的搜索引擎技術(shù),發(fā)展適應(yīng)深度測(cè)序數(shù)據(jù)和個(gè)體化基因組數(shù)據(jù)處理的可重構(gòu)計(jì)算系統(tǒng)結(jié)構(gòu)和編程模型。在國(guó)際權(quán)威期刊或重要學(xué)術(shù)會(huì)議上發(fā)表重要學(xué)術(shù)論文8篇左右,申請(qǐng)專利或軟件著作權(quán)3-5項(xiàng)。培養(yǎng)博士生、碩士生10名左右。</p><p>  承擔(dān)單位:中科院計(jì)算技術(shù)研究所</p><p><

75、b>  課題負(fù)責(zé)人:張佩珩</b></p><p>  學(xué)術(shù)骨干:張佩珩、卜東波、熊勁、譚光明</p><p>  經(jīng)費(fèi)比例:13.2%</p><p>  課題3:基于新一代表觀基因組測(cè)序數(shù)據(jù)的細(xì)胞分化和腫瘤發(fā)生模型研究</p><p>  研究?jī)?nèi)容:研究從新一代基因組和表觀基因組測(cè)序數(shù)據(jù)中檢測(cè)基因調(diào)控元件、提取表觀遺傳學(xué)

76、信息的方法,識(shí)別各種調(diào)控因子的功能,分析細(xì)胞在不同分化狀態(tài)的表觀遺傳學(xué)變化;建立細(xì)胞狀態(tài)轉(zhuǎn)化的數(shù)學(xué)模型,發(fā)展根據(jù)調(diào)控網(wǎng)絡(luò)定量刻畫(huà)細(xì)胞分化狀態(tài)的生物信息學(xué)新概念,實(shí)現(xiàn)對(duì)細(xì)胞分化和重編程過(guò)程的仿真模擬;通過(guò)綜合運(yùn)用新一代測(cè)序數(shù)據(jù)和其他組學(xué)數(shù)據(jù),以肝癌為例建立腫瘤發(fā)生、轉(zhuǎn)移和復(fù)發(fā)的數(shù)學(xué)模型,推進(jìn)對(duì)肝癌發(fā)生發(fā)展機(jī)理的認(rèn)識(shí),也為新一代測(cè)序綜合應(yīng)用提供一個(gè)方法學(xué)框架。</p><p>  預(yù)期目標(biāo):建立新一代測(cè)序數(shù)據(jù)的蛋白質(zhì)

77、結(jié)合位點(diǎn)信號(hào)檢測(cè)與比較、表觀遺傳學(xué)狀態(tài)標(biāo)定和功能元件注釋方法。綜合應(yīng)用多種測(cè)序數(shù)據(jù)提供的信息,建立細(xì)胞分化、肝癌發(fā)生發(fā)展等過(guò)程中基因調(diào)控與基因組演化的數(shù)學(xué)模型。在國(guó)際權(quán)威期刊或重要學(xué)術(shù)會(huì)議上發(fā)表重要學(xué)術(shù)論文25篇以上。培養(yǎng)博士生、碩士生15名左右。</p><p>  承擔(dān)單位:清華大學(xué)、第二軍醫(yī)大學(xué)上海東方肝膽醫(yī)院</p><p><b>  課題負(fù)責(zé)人:張奇?zhèn)?lt;/b&g

78、t;</p><p>  學(xué)術(shù)骨干:張奇?zhèn)?、魯志、汪小我、古槿、陳磊、談冶?lt;/p><p>  經(jīng)費(fèi)比例:21.0%</p><p>  課題4:新一代轉(zhuǎn)錄組數(shù)據(jù)處理與網(wǎng)絡(luò)集成分析的理論與方法 </p><p>  研究?jī)?nèi)容:研究對(duì)RNA測(cè)序數(shù)據(jù)的處理與分析方法,重點(diǎn)發(fā)展選擇性剪接基因轉(zhuǎn)錄模式和表達(dá)量的推斷方法,建立對(duì)基因表達(dá)和差異表達(dá)的新

79、認(rèn)識(shí);研究宏基因組和宏轉(zhuǎn)錄組的數(shù)據(jù)分析方法,發(fā)展基于序列統(tǒng)計(jì)特征的宏基因組、宏轉(zhuǎn)錄組數(shù)據(jù)比較和模式識(shí)別方法,通過(guò)宏轉(zhuǎn)錄組探索生物群落的功能特征;集成多種組學(xué)數(shù)據(jù)構(gòu)建基因轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)和剪接調(diào)控網(wǎng)絡(luò),研究網(wǎng)絡(luò)的數(shù)學(xué)描述方法,發(fā)展新的網(wǎng)絡(luò)功能表征指標(biāo),探索通過(guò)這些指標(biāo)研究復(fù)雜疾病中調(diào)控網(wǎng)絡(luò)的變化。</p><p>  預(yù)期目標(biāo):發(fā)展RNA轉(zhuǎn)錄組測(cè)序數(shù)據(jù)處理方法體系,對(duì)高等真核生物中大量存在的選擇性剪接基因,提出定性和定

80、量分析基因表達(dá)和基因差異表達(dá)的新理論框架,對(duì)選擇性剪接的功能和調(diào)控形成更系統(tǒng)的認(rèn)識(shí),對(duì)基因差異剪接表達(dá)在復(fù)雜疾病中的作用得到新的認(rèn)識(shí)。發(fā)展集成新一代基因組學(xué)數(shù)據(jù)和其他數(shù)據(jù)構(gòu)建分子調(diào)控網(wǎng)絡(luò)的方法,和定量分析生物網(wǎng)絡(luò)功能的數(shù)學(xué)模型。在國(guó)際權(quán)威期刊或重要學(xué)術(shù)會(huì)議上發(fā)表重要學(xué)術(shù)論文25篇以上。培養(yǎng)博士生、碩士生10名左右。</p><p><b>  承擔(dān)單位:清華大學(xué)</b></p>

81、<p><b>  課題負(fù)責(zé)人:張學(xué)工</b></p><p>  學(xué)術(shù)骨干:張學(xué)工、李衍達(dá)、江瑞、周彤、劉莉揚(yáng)</p><p>  經(jīng)費(fèi)比例:17.3%</p><p>  課題5:基于新一代測(cè)序數(shù)據(jù)的統(tǒng)計(jì)遺傳學(xué)新理論、方法與應(yīng)用</p><p>  研究?jī)?nèi)容與目標(biāo):發(fā)展從各類(lèi)測(cè)序數(shù)據(jù)中準(zhǔn)確高效地檢測(cè)基因組

82、遺傳多態(tài)性信號(hào)的方法;重點(diǎn)研究采用新一代測(cè)序數(shù)據(jù)進(jìn)行復(fù)雜疾病關(guān)聯(lián)研究所需要的新的統(tǒng)計(jì)遺傳學(xué)理論和方法,研究混合樣本測(cè)序的理論問(wèn)題和實(shí)驗(yàn)設(shè)計(jì)問(wèn)題;對(duì)非小細(xì)胞肺癌設(shè)計(jì)深度測(cè)序?qū)嶒?yàn),運(yùn)用所研究的方法成果在肺癌數(shù)據(jù)中尋找關(guān)鍵標(biāo)志物,探索腫瘤基因組發(fā)生改變的規(guī)律。</p><p>  預(yù)期目標(biāo):建立從新一代測(cè)序數(shù)據(jù)中精確檢測(cè)遺傳多態(tài)性的方法。針對(duì)新一代測(cè)序技術(shù)的特點(diǎn),發(fā)展基于混合樣本測(cè)序的統(tǒng)計(jì)遺傳學(xué)新理論和方法,建立基于新

83、一代測(cè)序數(shù)據(jù)進(jìn)行大規(guī)模關(guān)聯(lián)研究的優(yōu)化實(shí)驗(yàn)策略,在對(duì)肺癌等疾病的分子標(biāo)志物發(fā)現(xiàn)和腫瘤基因組演化模型上取得進(jìn)展。在國(guó)際權(quán)威期刊或重要學(xué)術(shù)會(huì)議上發(fā)表重要學(xué)術(shù)論文25篇左右。培養(yǎng)博士生、碩士生15名左右。</p><p>  承擔(dān)單位:復(fù)旦大學(xué)、中科院北京基因組所、中科院-馬普學(xué)會(huì)計(jì)算生物學(xué)伙伴研究所</p><p><b>  課題負(fù)責(zé)人:羅澤偉</b></p>

84、<p>  學(xué)術(shù)骨干:羅澤偉、田衛(wèi)東、張洪、胡小華、蔡軍、翟巍巍、李海鵬</p><p>  經(jīng)費(fèi)比例:23.6%</p><p>  各課題之間的關(guān)系如下圖所示。</p><p>  項(xiàng)目特色和可行性分析</p><p>  新一代測(cè)序是最近幾年內(nèi)發(fā)展起來(lái)的新技術(shù),所帶來(lái)的一系列生物信息學(xué)理論與方法問(wèn)題在國(guó)內(nèi)外都剛剛開(kāi)始被重視

85、,尚未有十分系統(tǒng)的研究。本項(xiàng)目的主要特色有:(1)從計(jì)算模型和推理模型兩方面系統(tǒng)梳理新一代測(cè)序數(shù)據(jù)從產(chǎn)生、處理、存儲(chǔ)到分析、解析、應(yīng)用各個(gè)層面的生物信息學(xué)問(wèn)題,包括理論問(wèn)題、技術(shù)問(wèn)題和方法問(wèn)題,集中多學(xué)科優(yōu)勢(shì)力量展開(kāi)系統(tǒng)研究。這種系統(tǒng)性是本項(xiàng)目的一大特色。(2)以認(rèn)識(shí)和挖掘數(shù)據(jù)中蘊(yùn)藏的科學(xué)知識(shí)為最終目標(biāo),指導(dǎo)對(duì)數(shù)據(jù)的實(shí)驗(yàn)采集、處理、壓縮、存儲(chǔ)等各環(huán)節(jié)的研究,避免片面追求數(shù)據(jù)的局部指標(biāo);在對(duì)數(shù)據(jù)的分析、挖掘和應(yīng)用中,充分運(yùn)用數(shù)據(jù)產(chǎn)生模型、

86、誤差模型和實(shí)驗(yàn)設(shè)計(jì)等方面的研究結(jié)果,避免對(duì)數(shù)據(jù)的盲目應(yīng)用。(3)與我國(guó)自主研制的新一代測(cè)序技術(shù)密切結(jié)合,既考慮現(xiàn)有測(cè)序技術(shù)產(chǎn)生的數(shù)據(jù),又充分考慮未來(lái)的技術(shù)發(fā)展,并且從生物信息學(xué)研究出發(fā)對(duì)測(cè)序技術(shù)自身發(fā)展提供導(dǎo)向。(4)對(duì)生物信息學(xué)的研究不停留在理論和方法上,而且緊密結(jié)合當(dāng)前生物學(xué)前沿,對(duì)細(xì)胞分化、癌癥發(fā)生發(fā)展等重要科學(xué)問(wèn)題展開(kāi)深入研究,力求在生物信息學(xué)理論方法和前沿科學(xué)發(fā)現(xiàn)上同時(shí)取得突破。(5)以積極的姿態(tài)應(yīng)對(duì)不斷增長(zhǎng)的新一代測(cè)序數(shù)據(jù)對(duì)

87、信息技術(shù)帶來(lái)的挑戰(zhàn)</p><p>  本項(xiàng)目經(jīng)過(guò)了充分的論證和準(zhǔn)備,我們對(duì)在新一代生物信息學(xué)理論、方法和應(yīng)用上取得重大突破充滿信心,主要原因有:(1)項(xiàng)目對(duì)新一代測(cè)序相關(guān)的生物信息學(xué)和生命科學(xué)、信息科學(xué)問(wèn)題進(jìn)行了深入系統(tǒng)的分析,研究?jī)?nèi)容既有前瞻性又切實(shí)可行,項(xiàng)目設(shè)計(jì)思路清晰,已形成先進(jìn)、可行的學(xué)術(shù)思路和技術(shù)路線。(2)項(xiàng)目組織了一支在生物信息學(xué)和相關(guān)方面有雄厚基礎(chǔ)并充滿活力的多學(xué)科研究隊(duì)伍,既包括了國(guó)內(nèi)相關(guān)領(lǐng)域

88、骨干力量,也包括了新近回國(guó)的優(yōu)秀人才,在高通量組學(xué)生物信息學(xué)、系統(tǒng)生物學(xué)、統(tǒng)計(jì)遺傳學(xué)和高性能計(jì)算等方面已經(jīng)有充分的研究基礎(chǔ)。(3)項(xiàng)目團(tuán)隊(duì)擁有良好的研究條件,尤其是同時(shí)擁有目前國(guó)際上主流的第二代測(cè)序平臺(tái)和我國(guó)自主研發(fā)的第二代測(cè)序平臺(tái),同時(shí)與國(guó)際上第三代測(cè)序技術(shù)領(lǐng)導(dǎo)者已經(jīng)建立了密切的合作關(guān)系,在用于開(kāi)展實(shí)驗(yàn)研究的實(shí)驗(yàn)條件和樣本、病例條件上都已經(jīng)有充分準(zhǔn)備,在計(jì)算機(jī)體系結(jié)構(gòu)和高性能計(jì)算上有很強(qiáng)的研究能力和實(shí)驗(yàn)條件,有條件完成計(jì)劃的研究任務(wù)。

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論