面向CFD并行應(yīng)用框架的容錯(cuò)技術(shù)研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩175頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、器件工藝的發(fā)展和并行規(guī)模的不斷擴(kuò)大,使得高性能計(jì)算機(jī)性能不斷得到提升,但也帶來(lái)編程墻和可靠性墻的嚴(yán)峻挑戰(zhàn),嚴(yán)重制約了高性能計(jì)算機(jī)應(yīng)用的發(fā)展。對(duì)于編程墻問(wèn)題,研究者們提出了面向領(lǐng)域的并行應(yīng)用框架,實(shí)現(xiàn)了各學(xué)科專(zhuān)家在并行領(lǐng)域應(yīng)用開(kāi)發(fā)過(guò)程中的解耦,大幅度提高了并行領(lǐng)域應(yīng)用的開(kāi)發(fā)效率。而可靠性問(wèn)題也一直是并行應(yīng)用研究的熱點(diǎn)問(wèn)題,已有眾多相關(guān)容錯(cuò)理論研究,但都不夠透徹。傳統(tǒng)基于硬件的容錯(cuò)方法面臨著容錯(cuò)代價(jià)大、缺乏靈活性等諸多問(wèn)題;而在實(shí)現(xiàn)層面上,

2、系統(tǒng)級(jí)容錯(cuò)雖然面向用戶透明,但存在著開(kāi)銷(xiāo)過(guò)大的問(wèn)題;應(yīng)用級(jí)容錯(cuò)雖然一定程度上緩解了容錯(cuò)開(kāi)銷(xiāo)問(wèn)題,卻使得用戶負(fù)擔(dān)加重。
  本文首次對(duì)面向CFD(Computational Fluid Dynamics)并行應(yīng)用框架的容錯(cuò)方法展開(kāi)研究。應(yīng)用框架下容錯(cuò)能夠在實(shí)現(xiàn)向上層用戶透明的同時(shí),保持應(yīng)用級(jí)容錯(cuò)方法的低開(kāi)銷(xiāo)優(yōu)點(diǎn)。并且在CFD并行應(yīng)用框架內(nèi),能夠?qū)⑷蒎e(cuò)設(shè)計(jì)和實(shí)現(xiàn)與CFD并行應(yīng)用特點(diǎn)進(jìn)行有效結(jié)合,獲得更為高效的容錯(cuò)優(yōu)化方法。因此,研究C

3、FD并行應(yīng)用框架下的容錯(cuò)技術(shù)對(duì)促進(jìn)CFD并行應(yīng)用發(fā)展有著重要意義。
  本文在現(xiàn)有CFD并行應(yīng)用軟件框架的基礎(chǔ)上,研究了面向CFD并行應(yīng)用軟件框架的容錯(cuò)技術(shù)。我們?cè)O(shè)計(jì)和構(gòu)建了框架內(nèi)的軟件容錯(cuò)架構(gòu),針對(duì)錯(cuò)誤檢測(cè)和錯(cuò)誤恢復(fù)這兩個(gè)容錯(cuò)關(guān)鍵問(wèn)題提出了一系列容錯(cuò)方法和優(yōu)化技術(shù)。本文的主要工作和創(chuàng)新點(diǎn)體現(xiàn)在:
  1.以狀態(tài)變遷圖STG為基礎(chǔ),建立并行程序和CFD并行應(yīng)用中的錯(cuò)誤傳播模型(第二章)
  硬件故障在并行程序中的傳播行

4、為是研究面向硬件故障的軟件容錯(cuò)技術(shù)基礎(chǔ),而對(duì)并行程序的抽象建模又是故障傳播行為研究的基礎(chǔ)。本文首先提出了基于程序狀態(tài)跟蹤的狀態(tài)變遷圖理論,在狀態(tài)變遷圖理論中,對(duì)沖突、因果、并發(fā)關(guān)系進(jìn)行了抽象,同時(shí)也支持系統(tǒng)間的交互抽象和行為抽象?;跔顟B(tài)變遷圖STG理論,我們對(duì)故障在并行程序中的傳播行為進(jìn)行了分析,包括原生錯(cuò)誤、數(shù)據(jù)流生錯(cuò)誤和控制流生錯(cuò)誤以及通信引起的傳播錯(cuò)誤等,并分別給出了錯(cuò)誤傳播方程及相關(guān)求解算法。
  同時(shí),本文還從CFD并

5、行應(yīng)用的連續(xù)模型和離散模型出發(fā),對(duì)他們的核心計(jì)算過(guò)程和特征進(jìn)行了分析,得到連續(xù)CFD模型下以差分操作為核心的計(jì)算模式和離散CFD模型下以模板為核心的計(jì)算模式,并將兩類(lèi)CFD模擬計(jì)算核心特征統(tǒng)一抽象為以計(jì)算模板為核心的計(jì)算模式。以模板計(jì)算為基礎(chǔ),我們給出了錯(cuò)誤在計(jì)算模板中的傳播方程,以及CFD模擬過(guò)程中應(yīng)用級(jí)錯(cuò)誤傳播相關(guān)求解算法。
  2.基于現(xiàn)有CFD并行應(yīng)用軟件框架提出了面向CFD并行應(yīng)用框架的容錯(cuò)架構(gòu)(第三章)
  基于

6、并行程序錯(cuò)誤傳播模型和CFD應(yīng)用級(jí)錯(cuò)誤傳播模型,在現(xiàn)有CFD并行應(yīng)用軟件框架的基礎(chǔ)上,設(shè)計(jì)了面向CFD并行應(yīng)用框架的容錯(cuò)架構(gòu)。結(jié)合CFD應(yīng)用中的天然容錯(cuò)基礎(chǔ)和相關(guān)容錯(cuò)需求,我們?cè)O(shè)計(jì)了CFD并行應(yīng)用框架下的同步回滾方法和異步回滾方法。在同步回滾方法中,重點(diǎn)利用CFD原有的周期性快照輸出以最小代價(jià)實(shí)現(xiàn)檢查點(diǎn)備份操作。而在異步回滾方法中,采用用戶級(jí)sender-based消息日志技術(shù),解決了失效進(jìn)程的通信重演問(wèn)題。
  3.結(jié)合離散CF

7、D應(yīng)用特征提出了面向模板計(jì)算的軟錯(cuò)誤檢測(cè)方法——GS-DMR(第四章)
  本文基于應(yīng)用級(jí)錯(cuò)誤傳播模型,結(jié)合離散模型的CFD并行應(yīng)用特征,提出了基于網(wǎng)格采樣的雙模冗余檢錯(cuò)方法,能夠大幅度減少模板計(jì)算中對(duì)軟錯(cuò)誤的檢錯(cuò)開(kāi)銷(xiāo)。我們基于軟錯(cuò)誤在網(wǎng)格上的傳播規(guī)律,并使用數(shù)學(xué)建模量化分析了如何獲得GS-DMR方法中的最優(yōu)檢錯(cuò)周期、最優(yōu)檢查點(diǎn)周期和最優(yōu)網(wǎng)格采樣尺寸等,以及獲取這些最優(yōu)參數(shù)的啟發(fā)式算法。針對(duì)GS-DMR方法中錯(cuò)誤傳播延遲帶來(lái)的檢錯(cuò)

8、盲區(qū)問(wèn)題,我們提出了包括冒險(xiǎn)檢查點(diǎn)、多重檢查點(diǎn)和混合檢錯(cuò)在內(nèi)的多重解決策略,并根據(jù)實(shí)用性需求選擇了混合檢錯(cuò)方案。
  4.提出了檢查點(diǎn)異步流水I/O優(yōu)化方法——AP-IO(第五章)
  本文針對(duì)checkpoint開(kāi)銷(xiāo)過(guò)大的問(wèn)題,提出異步流水檢查點(diǎn)I/O優(yōu)化方法——AP-IO,將形成檢查點(diǎn)備份數(shù)據(jù)的多個(gè)數(shù)據(jù)場(chǎng)采用流水方式異步寫(xiě)出,而不是在時(shí)間步末尾集中輸出,以獲取更多的可用隱藏時(shí)間。同時(shí)針對(duì)某些CFD應(yīng)用異步流水I/O隱藏時(shí)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論