版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、以高速的協(xié)處理器或加速器配合主處理器協(xié)同工作,正成為當(dāng)前高性能計(jì)算機(jī)架構(gòu)發(fā)展的新趨勢(shì)。例如,以圖形處理器(Graphic Processing Unit,簡(jiǎn)稱GPU)為加速器、或者以Intel的集成眾核(Many Integrated Core,簡(jiǎn)稱MIC)為協(xié)處理器的混合異構(gòu)架構(gòu)在高端計(jì)算機(jī)中日益成為主流,以2014年上半年世界超級(jí)計(jì)算機(jī)500強(qiáng)(TOP500)為例,前10名中有4臺(tái)、前15名中有7臺(tái)均為混合異構(gòu)架構(gòu)。如何將現(xiàn)有的領(lǐng)域
2、應(yīng)用問題無縫移植到這些混合異構(gòu)計(jì)算平臺(tái)上,將日益成為高性能計(jì)算應(yīng)用開發(fā)人員面臨的挑戰(zhàn)性問題。本文以典型計(jì)算流體動(dòng)力學(xué)(CFD)應(yīng)用問題為切入點(diǎn),分析了其訪存計(jì)算特征,重點(diǎn)探索了此類應(yīng)用問題在以天河二號(hào)為代表的CPU+MIC混合異構(gòu)計(jì)算平臺(tái)上的協(xié)同并行與性能優(yōu)化方法,以期為其它相似應(yīng)用領(lǐng)域的大規(guī)模異構(gòu)協(xié)同并行提供方法積累與技術(shù)借鑒。
考慮到當(dāng)前的CFD模擬包括Navier-Stokes控制方程離散求解、格子Boltzmann方程
3、求解等兩大主流方法,本文首先從應(yīng)用問題計(jì)算特征入手分析,結(jié)果表明,這兩類方法均屬計(jì)算密度較低的訪存受限型應(yīng)用;其次,對(duì)以CFD為代表的訪存受限類應(yīng)用在 CPU+MIC混合異構(gòu)平臺(tái)上的性能移植進(jìn)行了詳細(xì)研究與探索。由于真實(shí)CFD應(yīng)用求解具有較為復(fù)雜的物理過程與計(jì)算流程,我們先以一個(gè)同樣具有訪存受限特征的簡(jiǎn)單模型應(yīng)用(力導(dǎo)引算法 SORGRAD)為例,探索了在純 CPU平臺(tái)及純MIC平臺(tái)兩種同構(gòu)型平臺(tái)上的加速與優(yōu)化方法,然后以NS方程離散求
4、解的應(yīng)用程序 NPB BT-MZ和格子 Boltzmann方程求解方法(LBM)的應(yīng)用程序OpenLBMflow為例,分別研究了兩類CFD求解應(yīng)用在天河二號(hào)平臺(tái)上的異構(gòu)協(xié)同并行移植與性能優(yōu)化方法。
我們按照并行與優(yōu)化技術(shù)側(cè)重點(diǎn)、以及環(huán)境平臺(tái)的不同,將研究工作組織為兩部分:一是面向同構(gòu)型(即純CPU或純MIC)眾核平臺(tái)的典型CFD應(yīng)用并行與優(yōu)化,重點(diǎn)研究了性能模型、應(yīng)用特征與眾核平臺(tái)的高效并行與性能優(yōu)化技術(shù);面向天河CPU+MI
5、C混合異構(gòu)環(huán)境下的CFD數(shù)值模擬,重點(diǎn)關(guān)注異構(gòu)環(huán)境中獨(dú)特的協(xié)同并行與優(yōu)化方法。具體研究工作與主要?jiǎng)?chuàng)新點(diǎn)如下:
?。ㄒ唬┟嫦蛱旌颖姾送瑯?gòu)平臺(tái)的典型CFD應(yīng)用并行與優(yōu)化方面:
(1)基于屋頂式性能模型、以計(jì)算密度為度量指標(biāo),分析了典型CFD求解過程的程序特征,為后續(xù)并行移植及性能優(yōu)化時(shí)選擇突破口提供了理論基礎(chǔ)與決策依據(jù)。分析結(jié)果表明,傳統(tǒng)CFD求解方法通常屬于計(jì)算密度較小的“訪存受限型”應(yīng)用,這表明在進(jìn)行并行移植及性能優(yōu)化
6、時(shí),訪存性能優(yōu)化將是首要關(guān)注的目標(biāo)。
?。?)以力導(dǎo)引算法應(yīng)用問題(SORGRAD)為例,基于CPU同構(gòu)平臺(tái)及MIC同構(gòu)平臺(tái),提出并實(shí)現(xiàn)了數(shù)據(jù)級(jí)與指令級(jí)兩級(jí)并行的加速與優(yōu)化方法。數(shù)據(jù)級(jí)并行采用了 OpenMP多線程實(shí)現(xiàn),指令級(jí)并行則針對(duì)算法核心模塊采用了單指令多數(shù)據(jù)(SIMD)向量化實(shí)現(xiàn);將程序移植到MIC平臺(tái)上時(shí),重點(diǎn)測(cè)試分析了使用更寬的向量指令的并行效果。數(shù)值測(cè)試結(jié)果表明,以native的模式在MIC對(duì)程序進(jìn)行并行計(jì)算,在數(shù)
7、據(jù)規(guī)模大于8704時(shí),并行程序相對(duì)于串行程序性能最高提升在600倍左右。在力導(dǎo)引問題上所獲得的訪存受限型應(yīng)用并行與優(yōu)化經(jīng)驗(yàn),可推廣到物理過程更復(fù)雜的CFD應(yīng)用問題中去。
(3)針對(duì)采用格子Boltzmann方法(LBM)類的CFD應(yīng)用求解問題,采用了任務(wù)級(jí)、數(shù)據(jù)集和指令級(jí)三級(jí)并行策略,提出并實(shí)現(xiàn)了MPI+OpenMP混合并行方法,結(jié)果表明,LBM應(yīng)用問題具有良好的強(qiáng)可擴(kuò)展性和弱可擴(kuò)展性,在CPU上多線程優(yōu)化性能可提升14倍左右
8、。通過單核優(yōu)化,在數(shù)據(jù)規(guī)模為512*256*256(除特殊說明外測(cè)試規(guī)模均為512*256*256)時(shí)串行程序性能提升就可達(dá)2.97倍;通過程序多線程優(yōu)化,性能提升14倍左右;通過跨節(jié)點(diǎn)并行優(yōu)化,對(duì)MPI通信次序進(jìn)行了重新排序,結(jié)果表明大規(guī)模的LBM并行計(jì)算具有良好的強(qiáng)可擴(kuò)展性和弱可擴(kuò)展性;通過指令級(jí)的SIMD優(yōu)化,使得訪存順序與計(jì)算順序相匹配,有效提高了計(jì)算/訪存比。
?。?)針對(duì)NS離散求解(NPB BT-MZ)類CFD應(yīng)用
9、問題,對(duì)其算法實(shí)現(xiàn)上的并行性進(jìn)行了探索,實(shí)現(xiàn)了該問題的粘性項(xiàng)與非粘性項(xiàng)的并發(fā)計(jì)算,以及不同維方向上粘性項(xiàng)計(jì)算的并行。分析與測(cè)試驗(yàn)證,驗(yàn)證了并行方法的正確性,性能測(cè)試結(jié)果表明,新的并行算法可提升性能2.8倍。
(二)面向天河CPU+MIC混合異構(gòu)環(huán)境下的CFD應(yīng)用協(xié)同并行:
?。?)針對(duì)LBM應(yīng)用問題在混合異構(gòu)平臺(tái)上的計(jì)算,提出了基于offload異步傳輸?shù)膮f(xié)同并行計(jì)算方法。結(jié)果表明,該并行實(shí)現(xiàn)很好的將CPU與MIC通信
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向眾核平臺(tái)的車輛識(shí)別技術(shù)研究.pdf
- 面向多核-眾核平臺(tái)的猜測(cè)并行關(guān)鍵技術(shù)研究.pdf
- 面向CFD的并行優(yōu)化技術(shù)研究.pdf
- 基于“天河二號(hào)”的纖維測(cè)試系統(tǒng).pdf
- 混合異構(gòu)眾核平臺(tái)上的高性能計(jì)算金融算法研究.pdf
- 黃磷脫砷裝置中分相器的CFD數(shù)值模擬與優(yōu)化技術(shù)研究.pdf
- 集成眾核平臺(tái)上CFD程序性能評(píng)測(cè)技術(shù)研究.pdf
- 埕島中心二號(hào)平臺(tái)的平面布局優(yōu)化研究
- 面向新型異構(gòu)眾核系統(tǒng)的多設(shè)備協(xié)同并行計(jì)算關(guān)鍵技術(shù)研究.pdf
- 埕島中心二號(hào)平臺(tái)的平面布局優(yōu)化研究.pdf
- 面向動(dòng)態(tài)異構(gòu)眾核處理器的任務(wù)調(diào)度研究.pdf
- 溫室機(jī)械通風(fēng)CFD模擬與優(yōu)化控制研究.pdf
- 面向多媒體應(yīng)用的眾核SoC設(shè)計(jì)技術(shù)研究.pdf
- 基于眾核的網(wǎng)絡(luò)處理平臺(tái)關(guān)鍵技術(shù)研究.pdf
- 高通量眾核并行模擬加速技術(shù)研究.pdf
- 異構(gòu)眾核體系結(jié)構(gòu)Cache功耗和性能優(yōu)化關(guān)鍵技術(shù)研究.pdf
- 面向申威眾核架構(gòu)的GROMACS并行實(shí)現(xiàn)與性能優(yōu)化.pdf
- 高性能眾核芯片動(dòng)態(tài)熱管理技術(shù)研究.pdf
- 丹山溝二號(hào)連拱隧道支護(hù)技術(shù)優(yōu)化研究.pdf
- 地鐵側(cè)式站臺(tái)通風(fēng)CFD模擬與優(yōu)化.pdf
評(píng)論
0/150
提交評(píng)論