

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、半導體工藝的持續(xù)進步和流編程模型的提出是推動眾核流處理器體系結(jié)構(gòu)向前發(fā)展的兩個重要因素。為了充分利用摩爾定律發(fā)展帶來的豐富廉價的晶體管資源,片上多處理器已經(jīng)成為工業(yè)界所接受的新一代處理器體系結(jié)構(gòu)的解決方案之一。另一方面,流編程模型的提出為解決應用程序并行性表示和開發(fā)提供了有利的工具,業(yè)已成為程序并行化的一般方法。但是流應用程序本身的運行時特性對處理器資源的靈活可配置提出了新的要求。一方面,不同程序?qū)τ谟嬎悖鎯涂刂频挠布Y源需求是千差
2、萬別的;另一方面,有的程序?qū)τ谟布Y源的需求還表現(xiàn)出階段性特征,不同階段所需的硬件資源也不盡相同。為了解決這一問題,近年來可重構(gòu)眾核處理器體系結(jié)構(gòu)受到廣泛關(guān)注,期望以同構(gòu)的輕量級物理核來構(gòu)建不同粒度的邏輯處理器,自適應地調(diào)整硬件資源,最大化串行程序的性能。我們基于以上認識,提出了可重構(gòu)的眾核流處理器體系結(jié)構(gòu)TPA-S,旨在為流應用程序提供片上資源靈活可重構(gòu)的硬件襯底。
本文圍繞這一體系結(jié)構(gòu),研究了以CUDA為代表的流編程模
3、型在TPA-S上的編譯和程序優(yōu)化技術(shù),分別從可重構(gòu)流處理器的執(zhí)行模型,指令集擴展,編譯系統(tǒng)設(shè)計,以及程序優(yōu)化技術(shù)等方面展開研究。主要的研究內(nèi)容包括:
(1)研究流編程模型與可重構(gòu)流體系結(jié)構(gòu)的執(zhí)行模型,探索流應用程序在可重構(gòu)流處理器TPA-S上的映射方案。流編程模型的實質(zhì)在于控制和計算的分離:流程序中的計算密集部分以核心函數(shù)的形式被抽取出來,使用多個計算線程來開發(fā)數(shù)據(jù)級并行性;而控制線程專注于計算之外的控制流程序,為核心函數(shù)
4、組織數(shù)據(jù)以及開發(fā)生產(chǎn)者-消費者局部性。我們設(shè)計了主從式和分階段式兩種程序映射方案,分別以異步和同步的方式將計算線程和控制線程映射到TPA-S的多個邏輯處理器上。另外,我們還提出了單一線程和組合線程這兩種核心函數(shù)的組織方式,在單線程性能和系統(tǒng)吞吐率之間尋求最佳平衡點。
(2)研究流編程模型對TPA-S指令集體系結(jié)構(gòu)產(chǎn)生的設(shè)計需求,提出擴展的類數(shù)據(jù)流EDGE指令集DISC-S。TPA-S流處理器基于顯式數(shù)據(jù)流圖執(zhí)行(EDGE)
5、指令集,將程序的每個線程組織為原子執(zhí)行和提交的超塊序列,在超塊內(nèi)部按照類數(shù)據(jù)流方式執(zhí)行。EDGE指令集中特殊的目標域編碼方式是TPA-S處理器實現(xiàn)物理核可重構(gòu)的基礎(chǔ)之一。然而流編程模型為TPA-S微結(jié)構(gòu)帶來了一些不包括在EDGE指令集中的新特性,例如:多個計算線程需要依靠只讀的特殊寄存器來快速地獲取線程索引信息;計算線程需要訪問軟件管理的片上共享存儲器數(shù)據(jù);另外,多個線程之間需要實現(xiàn)高效的柵欄同步機制。DISC-S擴展指令集針對以上新特
6、性,增加了對特殊寄存器讀寫,軟件管理的片上共享存儲層次以及線程間同步的指令支持,為實現(xiàn)流編程模型的映射帶來了方便。
(3)設(shè)計并實現(xiàn)面向CUDA編程語言的TPA-S編譯器系統(tǒng)。本文基于NVCC編譯框架將編譯器系統(tǒng)分為核心級與流級兩條編譯鏈。我們參考scale編譯器設(shè)計了核心級編譯器Ptx2EDGE,將PTX匯編語言形式的計算線程源代碼程序編譯成DISC-S擴展指令集的二進制目標代碼。在流級,我們實現(xiàn)了CUDAC語法擴展和A
7、PI函數(shù)接口以及運行時庫的移植,并復用scale串行編譯器產(chǎn)生控制線程代碼。編譯器系統(tǒng)設(shè)計的主要工作由一系列編譯模塊與工具軟件的代碼實現(xiàn)組成,包括PTX和CUDA語法的前端識別,中間表示形式轉(zhuǎn)換,超塊生成和優(yōu)化,資源分配與指令調(diào)度,匯編器與鏈接器等。另外,為了實現(xiàn)CUDA控制線程中設(shè)備管理,線程管理,執(zhí)行控制和存儲器管理等功能模塊,我們移植了CUDA運行時庫并實現(xiàn)了軟件運行時系統(tǒng)Mpsim。編譯系統(tǒng)的正確性和執(zhí)行效率通過實驗在一組基準測
8、試程序上進行了驗證與評測。
(4)研究了不規(guī)則程序在流處理器上的程序優(yōu)化方法。本文主要分析了眾核流處理器上不規(guī)則程序的性能瓶頸問題,并對GPU平臺上的圖廣度優(yōu)先搜索算法進行了實例研究,希望找到不規(guī)則程序在流處理器上進行性能調(diào)優(yōu)的一般性方法。我們針對不規(guī)則程序中復雜多變的無組織數(shù)據(jù)并行性提出了基于并行性反饋的FlexBFS高效實現(xiàn)方法,并針對不規(guī)則訪存帶來的動態(tài)隊列訪存效率問題以及不規(guī)則輸入引起的負載平衡問題,分別提出了相應
9、的程序優(yōu)化技術(shù)。這些實現(xiàn)方法和優(yōu)化技術(shù)都能夠被應用到其它的不規(guī)則程序當中。
本文獲得了以下重要認識:(1)流編程模型能夠驅(qū)動指令集體系結(jié)構(gòu)的設(shè)計,ISA需要反映編程模型帶來的新特性;(2)流程序的多線程映射需要軟件運行時庫的協(xié)同工作,在將來的操作系統(tǒng)中可以增加對流編程模型的支持;(3)編譯系統(tǒng)設(shè)計環(huán)節(jié)需要使用合適的編程模式和軟件工程方法來增強程序的模塊化與可讀性,例如訪問者模式;(4)不規(guī)則程序的并行性開發(fā)需要準確的并行性
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 可重構(gòu)眾核流處理器體系結(jié)構(gòu)關(guān)鍵技術(shù)研究.pdf
- 邏輯核動態(tài)可重構(gòu)的眾核處理器體系結(jié)構(gòu).pdf
- 面向可重構(gòu)眾核處理器的子網(wǎng)劃分與廣播機制研究.pdf
- REmus Ⅱ可重構(gòu)處理器優(yōu)化任務(wù)編譯環(huán)境前端設(shè)計.pdf
- 眾核處理器核級冗余拓撲重構(gòu)算法研究.pdf
- 類數(shù)據(jù)流驅(qū)動的分片式處理器上的編譯及優(yōu)化技術(shù).pdf
- 眾核處理器的訪存優(yōu)化及分析.pdf
- 眾核處理器的并行編程模型性能分析與優(yōu)化.pdf
- 異構(gòu)可重構(gòu)處理器的編譯器配置信息生成研究.pdf
- 粗粒度可重構(gòu)處理器的配置優(yōu)化技術(shù)研究與實現(xiàn).pdf
- 異構(gòu)眾核處理器的設(shè)計與實現(xiàn).pdf
- 基于處理器核分配方案的眾核處理器可靠性增強技術(shù).pdf
- 眾核處理器中動態(tài)可重構(gòu)Cache一致性協(xié)議的研究與實現(xiàn).pdf
- 媒體處理器編譯器中SIMD編譯優(yōu)化技術(shù)的研究與實踐.pdf
- CoRP-一種可重構(gòu)處理器的編譯器的設(shè)計與實現(xiàn).pdf
- 眾核處理器中Cache一致性機制的動態(tài)可重構(gòu)設(shè)計.pdf
- 面向粗粒度可重構(gòu)處理器REMUS-Ⅱ的任務(wù)編譯器設(shè)計與實現(xiàn).pdf
- 片上處理器陣列容錯重構(gòu)技術(shù).pdf
- 面向片式結(jié)構(gòu)多核處理器的流編譯優(yōu)化方法研究.pdf
- 眾核處理器自適應容錯技術(shù)研究.pdf
評論
0/150
提交評論