版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、并行計(jì)算是解決單處理器速度瓶頸的最好方法,它能充分利用計(jì)算機(jī)硬件資源,實(shí)現(xiàn)程序的高效執(zhí)行。它的研究方向包括:計(jì)算機(jī)并行硬件平臺(tái)、并行軟件、并行算法等。
目前并行計(jì)算的現(xiàn)狀是:并行算法發(fā)展的速度不及并行硬件性能增長的速度,一些現(xiàn)有的并行算法無法高效的利用并行硬件資源。高效并行算法的缺乏是發(fā)展并行計(jì)算很大的障礙。這種現(xiàn)狀的一個(gè)很重要原因是并行算法的設(shè)計(jì)和優(yōu)化要比串行算法復(fù)雜得多,例如計(jì)算子任務(wù)的劃分、負(fù)載均衡、并行任務(wù)之間的通信和
2、同步等。每一部分的設(shè)計(jì)都會(huì)影響算法最后的性能。所以研究如何設(shè)計(jì)出高效的并行算法具有重要意義。
選取了生物信息學(xué)領(lǐng)域中的兩個(gè)基礎(chǔ)課題:蛋白質(zhì)序列比對(duì)和DNA序列拼接,進(jìn)行研究。它們是生物信息學(xué)領(lǐng)域最基礎(chǔ)的課題之一,也是難度較大但十分有意義的課題,很多其他的課題都需要依托這兩個(gè)基礎(chǔ)算法。DNA序列是由4種堿基組成(ATCG),蛋白質(zhì)序列包含20種氨基酸(amino acid),從計(jì)算機(jī)角度來看它們都是由一串字符組成。但根據(jù)實(shí)際操作
3、的不同,需要采取不同的加速優(yōu)化策略。
序列比對(duì)是生物信息學(xué)的基本組成和重要基礎(chǔ)。它的基本思想是基于生物學(xué)中序列決定結(jié)構(gòu),結(jié)構(gòu)決定功能的普遍規(guī)律。通過檢測序列之間的相似性,發(fā)現(xiàn)生物序列中的功能、結(jié)構(gòu)和進(jìn)化信息。因此蛋白質(zhì)序列比對(duì)對(duì)于研究蛋白質(zhì)在生物體中的作用功能,并研究它們的進(jìn)化起源有重要價(jià)值。但是隨著人類基因組計(jì)劃的實(shí)施,蛋白質(zhì)序列數(shù)據(jù)庫的規(guī)模已呈指數(shù)增長,單純的依靠串行的比對(duì)算法已經(jīng)很難滿足實(shí)際應(yīng)用的需求,這就需要研究并設(shè)計(jì)
4、高效的并行算法來加速蛋白質(zhì)比對(duì)。利用最新的基于Intel MIC(Many Integrated Core,集成眾核)架構(gòu)的Xeon Phi協(xié)處理器,設(shè)計(jì)出了支持異構(gòu)系統(tǒng)架構(gòu)的蛋白質(zhì)序列比對(duì)算法,XPFS,實(shí)現(xiàn)CPU和協(xié)處理器的高效并行工作。算法中實(shí)現(xiàn)了三級(jí)并行:指令集并行(例如利用SSE)、線程級(jí)并行和設(shè)備級(jí)并行。為了使硬件得到高效利用,采用動(dòng)態(tài)任務(wù)分配的策略,由任務(wù)分配器將總的任務(wù)切割成小的任務(wù)塊,每一個(gè)計(jì)算進(jìn)程在完成當(dāng)前任務(wù)塊后,
5、主動(dòng)向任務(wù)分配器申請(qǐng)下一個(gè)任務(wù)塊。由于任務(wù)塊可以分割的比較小,所以避免了負(fù)載不均衡的問題。通過實(shí)際的實(shí)驗(yàn)測試,并與傳統(tǒng)的PFSearch算法作比較,在保證比對(duì)結(jié)果相同的前提下,算法獲得了將近4倍的加速比。
DNA序列包含生物體的最基本的遺傳信息,是分子生物學(xué)研究的根本源頭。獲得生物體DNA全部序列對(duì)于揭示生命的本質(zhì)具有重要意義。由于測序技術(shù)的局限,當(dāng)前的測序儀只能一次讀取很短的DNA片段(75~400bp),這對(duì)于分子生物學(xué)研
6、究是遠(yuǎn)遠(yuǎn)不夠的。序列拼接指的是通過聯(lián)配和融合一些短的測序片段形成更長的DNA序列從而重構(gòu)生物體DNA序列。這對(duì)于分子生物學(xué)是不可或缺的研究方向。序列拼接分為:全新拼接(de novo)和映射拼接(mapping assembly)。而全新拼接(de novo)一直是分子生物學(xué)領(lǐng)域研究的熱點(diǎn)問題。它是在沒有參照序列的前提下,將測序所得的reads片段,通過比對(duì)、連接、組裝等步驟,最終盡量還原出原始的DNA序列。它的主要難點(diǎn)在于: read
7、s片段數(shù)據(jù)量大、測序存在錯(cuò)誤、沒有參考基因組、DNA內(nèi)部存在大量重復(fù)區(qū)域,內(nèi)存需求大等,這都加大了全新拼接(de novo)的難度。根據(jù)拼接中的難點(diǎn)和現(xiàn)有基因拼接算法的不足,設(shè)計(jì)研發(fā)出全新的de novo拼接算法,ARCS。與其他算法不同,首先,ARCS將序列中的unique區(qū)域和repeat區(qū)域分開處理,降低repeat區(qū)域?qū)罄m(xù)拼接的影響。其次,在scaffold構(gòu)建構(gòu)成中,采用的是unique區(qū)域的全局最優(yōu)排列,而不是局部最優(yōu)。為
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 生物序列比對(duì)算法的并行優(yōu)化設(shè)計(jì)與實(shí)現(xiàn).pdf
- 生物基因序列比對(duì)算法的并行優(yōu)化研究.pdf
- 24903.雙序列比對(duì)算法研究與并行優(yōu)化
- 生物序列比對(duì)算法并行性的研究.pdf
- 生物序列比對(duì)近似算法及其并行化研究.pdf
- 生物序列比對(duì)的并行計(jì)算以及啟發(fā)式算法.pdf
- 串匹配與序列查找并行算法研究.pdf
- 并行優(yōu)化算法的同步與異步.pdf
- 并行遺傳算法在生物序列比對(duì)中的應(yīng)用研究.pdf
- 多核環(huán)境下的生物信息序列比對(duì)并行優(yōu)化方法的研究.pdf
- 基于de Bruijn圖的短序列拼接算法的優(yōu)化及并行化.pdf
- 序列模式挖掘的并行算法研究.pdf
- 序列比對(duì)優(yōu)化算法研究.pdf
- 生物序列比對(duì)算法的研究與實(shí)現(xiàn).pdf
- 生物序列的語義分析——算法與詞典.pdf
- 基于HEVC的幀內(nèi)預(yù)測算法優(yōu)化與并行化設(shè)計(jì).pdf
- Vocabulary Tree建樹算法并行優(yōu)化.pdf
- K-means算法并行實(shí)現(xiàn)與性能優(yōu)化.pdf
- DNA編碼序列檢測的優(yōu)化算法設(shè)計(jì).pdf
- 基于多核的Loeffler算法的并行優(yōu)化與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論