cache+copy-on-writetls猜測數(shù)據(jù)管理機制的研究_第1頁
已閱讀1頁,還剩70頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、<p>  分類號 TP314 學(xué)號 11060022</p><p> ?。眨模?密級 公 開</p><p><b>  工學(xué)碩士學(xué)位論文</b></p><p>  Cache Copy-On-Write: TLS 猜測數(shù)據(jù)管理機制的研究</p><p><b>  碩士生姓名 郭輝</b

2、></p><p>  學(xué) 科 專 業(yè) 計算機科學(xué)與技術(shù)</p><p>  研 究 方 向 計算機體系結(jié)構(gòu)</p><p>  指 導(dǎo) 教 師 沈 立 副教授</p><p>  國防科學(xué)技術(shù)大學(xué)研究生院</p><p><b>  二〇一三年十一月</b></p><

3、p><b>  萬方數(shù)據(jù)</b></p><p><b>  萬方數(shù)據(jù)</b></p><p>  猜測數(shù)據(jù)管理機制的研究</p><p>  國防科學(xué)技術(shù)大學(xué)研究生院</p><p><b>  萬方數(shù)據(jù)</b></p&g

4、t;<p>  Cache Copy-on-Write:</p><p>  Research of mechanism of speculated data</p><p>  management in TLS</p><p>  Candidate:Guo Hui</p><p>  Advisor:Prof. Shen

5、Li</p><p><b>  A thesis</b></p><p>  Submitted in partial fulfillment of the requirements</p><p>  for the degree of Master of Engineering</p><p>  in Compu

6、ter Science and Technology</p><p>  Graduate School of National University of Defense Technology</p><p>  Changsha,Hunan,P.R.China</p><p>  November,2013</p><p><b&g

7、t;  萬方數(shù)據(jù)</b></p><p><b>  萬方數(shù)據(jù)</b></p><p><b>  萬方數(shù)據(jù)</b></p><p><b>  萬方數(shù)據(jù)</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p>&l

8、t;b>  目 錄</b></p><p>  摘 要 ................................................................................................................. i</p><p>  ABSTRACT ........................

9、................................................................................iii</p><p>  第一章 緒論...................................................................................................... 1<

10、/p><p>  研究背景與意義 ............................................................................................. 1</p><p>  多核/眾核處理器發(fā)展趨勢...............................................................

11、.. 1</p><p>  多核多線程并行編程模型的發(fā)展...................................................... 3</p><p>  TLS 編程模型的研究現(xiàn)狀.................................................................. 5</p><p&g

12、t;  本文主要工作 ................................................................................................. 9</p><p>  猜測變量的生命周期.......................................................................... 9&l

13、t;/p><p>  Cache Copy-on-Write 機制................................................................ 10</p><p>  基于 Enhanced Local Memory 的實現(xiàn)方式..................................... 10</p><p

14、>  本文的組織結(jié)構(gòu) ........................................................................................... 11</p><p>  第二章 TLS 猜測數(shù)據(jù)管理機制....................................................................... 1

15、2</p><p>  猜測數(shù)據(jù)生命周期 ....................................................................................... 12</p><p>  猜測數(shù)據(jù)產(chǎn)生階段..................................................................

16、.......... 12</p><p>  猜測數(shù)據(jù)使用階段............................................................................ 14</p><p>  猜測數(shù)據(jù)確認階段..................................................................

17、.......... 16</p><p>  現(xiàn)有技術(shù)的分類和比較 ................................................................................. 18</p><p>  設(shè)計空間..............................................................

18、.............................. 18</p><p>  設(shè)計空間探索方法............................................................................ 19</p><p>  多核/眾核平臺下 TLS 面臨的挑戰(zhàn)....................................

19、........................... 21</p><p>  本章小結(jié) ......................................................................................................... 21</p><p>  第三章 Cache Copy-on-Write........

20、................................................................. 23</p><p>  基于 Cache Copy-on-Write 的 TLS 框架..................................................... 23</p><p>  Cache Copy-on-Write

21、 的基本思想.................................................... 23</p><p>  基于 Cache Copy-on-Write 的 TLS 系統(tǒng)執(zhí)行框架 ........................ 24</p><p>  猜測數(shù)據(jù)的管理 ..........................................

22、................................................... 25</p><p>  創(chuàng)建.................................................................................................... 25</p><p>  訪問.............

23、....................................................................................... 26</p><p>  提交.................................................................................................... 29&l

24、t;/p><p>  本章小結(jié) ......................................................................................................... 30</p><p><b>  第 I 頁</b></p><p><b>  萬方數(shù)據(jù)<

25、;/b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p>  第四章 實現(xiàn)與性能分析.................................................................................. 31</p><p>  實現(xiàn) ...........................

26、.................................................................................... 31</p><p>  Enhanced Local Memory ................................................................... 31</p><p&

27、gt;  Enhanced Local Memory 的數(shù)據(jù)訪問 .............................................. 33</p><p>  系統(tǒng)結(jié)構(gòu)............................................................................................ 34</p><

28、p>  SESC-ELM....................................................................................................... 36</p><p>  SESC 模擬器簡介..................................................................

29、............ 36</p><p>  SESC-ELM 的實現(xiàn)............................................................................ 37</p><p>  性能測試與分析 ............................................................

30、............................... 41</p><p>  實驗環(huán)境............................................................................................ 41</p><p>  測試程序集....................................

31、.................................................... 41</p><p>  實驗結(jié)果及分析................................................................................ 43</p><p>  本章小結(jié) ........................

32、............................................................................... 46</p><p>  第五章 結(jié)束語 ................................................................................................ 48</p&g

33、t;<p>  工作總結(jié) ....................................................................................................... 48</p><p>  工作展望 ..................................................................

34、..................................... 49</p><p>  致 謝 .............................................................................................................. 50</p><p>  參考文獻.............

35、.............................................................................................. 52</p><p>  作者在學(xué)期間取得的學(xué)術(shù)成果........................................................................... 56</p>

36、;<p><b>  第 II 頁</b></p><p><b>  萬方數(shù)據(jù)</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p><b>  表 目 錄</b></p><p>  表 2.1 各階段的技術(shù)要求及實現(xiàn)方法匯總 ..

37、............................................................... 17</p><p>  表 4.1 模擬器的多核處理器結(jié)構(gòu) ................................................................................ 41</p><p>  表 4.2 C

38、ache Level 的硬件結(jié)構(gòu).................................................................................... 42</p><p>  表 4.3 實驗中使用的測試程序集 ............................................................................

39、.... 43</p><p>  表 4.4 程序模擬執(zhí)行時間(ms)..................................................................................... 44</p><p>  表 4.5 Pi 程序不同優(yōu)化的情況下程序執(zhí)行時間(ms) ...............................

40、.................. 44</p><p><b>  第 III 頁</b></p><p><b>  萬方數(shù)據(jù)</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p><b>  圖 目 錄</b></p><

41、p>  圖 1.1 共享一級緩存的片上多核處理器結(jié)構(gòu) .............................................................. 2</p><p>  圖 1.2 MPI 基本編程框架.......................................................................................

42、........ 4</p><p>  圖 1.3 OpenMP 并行編程框架........................................................................................ 5</p><p>  圖 1.4 Hydra 處理器結(jié)構(gòu) .....................................

43、........................................................... 7</p><p>  圖 1.5 CorD 對串行程序并行化機制 ............................................................................. 8</p><p>  圖 1.6 BOP 的并

44、行編程模型 .......................................................................................... 9</p><p>  圖 2.1 共享變量在多線程中的問題以及解決方案 .................................................... 13</p><p&g

45、t;  圖 2.2 利用硬件方法實現(xiàn)猜測數(shù)據(jù)的管理 ................................................................ 14</p><p>  圖 2.3 CorD 的存儲空間管理 .....................................................................................

46、.. 15</p><p>  圖 2.4 操作系統(tǒng)中 Copy-on-Write 機制...................................................................... 16</p><p>  圖 2.5 相鄰兩次迭代之間產(chǎn)生 RAW 相關(guān).............................................

47、.................... 16</p><p>  圖 2.6 根據(jù)猜測數(shù)據(jù)生命周期劃分的 TLS 系統(tǒng)設(shè)計空間....................................... 19</p><p>  圖 3.1 Cache Copy-on-Write 管理機制的執(zhí)行流程............................................

48、......... 25</p><p>  圖 3.2 Cache Copy-on-Write 機制 Load 指令執(zhí)行策略............................................... 26</p><p>  圖 3.3 顯式通信消息處理過程 .......................................................

49、............................. 27</p><p>  圖 3.4 共享變量表的結(jié)構(gòu) ............................................................................................ 28</p><p>  圖 3.5 隱式通信的執(zhí)行流程 ................

50、........................................................................ 29</p><p>  圖 3.6 共享變量表數(shù)據(jù)相關(guān)沖突示例 ........................................................................ 29</p><p>  圖 4.

51、1 帶有 Enhanced Local Memory 的存儲層次結(jié)構(gòu).............................................. 32</p><p>  圖 4.2 采用 Enhanced Local Memory 的 TLS 系統(tǒng)硬件結(jié)構(gòu) .................................... 35</p><p>  圖 4.3 SE

52、SC 功能模擬中類的依賴關(guān)系....................................................................... 36</p><p>  圖 4.4 程序示例 ..................................................................................................

53、.......... 37</p><p>  圖 4.5 SESC-ELM 程序并行化實例............................................................................. 40</p><p>  圖 4.6 采用線程間通信所獲得的性能加速比 ....................................

54、......................... 45</p><p>  圖 4.7 Cache Copy-on-Write 機制的可擴展性測試結(jié)果............................................. 46</p><p><b>  第 IV 頁</b></p><p><b>  萬方數(shù)據(jù)

55、</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p><b>  摘 要</b></p><p>  隨著芯片集成度的不斷提高,越來越多的處理器核被集成到單個芯片上,出</p><p>  現(xiàn)了多核和眾核處理器。與多核和眾核體系結(jié)構(gòu)快速發(fā)展所不同的是,并行程序</p>

56、<p>  設(shè)計卻沒有實現(xiàn)跨越式發(fā)展。傳統(tǒng)的并行編程模型——數(shù)據(jù)并行編程模型、消息</p><p>  傳遞編程模型、共享內(nèi)存編程模型,雖然從一定程度上簡化程序員程序并行化的</p><p>  工作,但是它們對于一些粗粒度并行缺乏一定的支持,而且它們都不支持線程的</p><p>  猜測執(zhí)行,這也造成了巨大的計算資源浪費。</p>&

57、lt;p>  在以猜測的方式挖掘應(yīng)用中的粗粒度并行方面,TLS(Thread-Level Speculation</p><p>  線程級猜測執(zhí)行)就是其中的典型代表。它的最大優(yōu)點是編程模型非常簡潔——</p><p>  程序員只需標(biāo)識出那些可以猜測執(zhí)行的代碼段即可,運行時系統(tǒng)或硬件負責(zé)確保</p><p>  猜測線程之間的數(shù)據(jù)相關(guān)不被破壞。但是由于其自

58、身系統(tǒng)開銷過高等原因,導(dǎo)致</p><p>  TLS 機制的應(yīng)用并不廣泛。</p><p>  本文提出并實現(xiàn)一種編程模型簡單、系統(tǒng)開銷低的 TLS 系統(tǒng)猜測數(shù)據(jù)管理機</p><p>  制,它不僅能夠在不降低處理器核主頻的情況下,實現(xiàn)高效的猜測數(shù)據(jù)管理,而</p><p>  且在一定程度上解決了猜測線程間共享數(shù)據(jù)相關(guān)的問題。</

59、p><p>  本文的研究工作和成果有:</p><p>  1、提出猜測變量生命周期的概念</p><p>  猜測變量生命周期包括猜測變量的產(chǎn)生、使用和提交三個階段,按照猜測變量</p><p>  的生命周期,本文提出了一種新的 TLS 技術(shù)分類方法,并比較了各種已有 TLS 實</p><p>  現(xiàn)方法的優(yōu)缺點;

60、根據(jù)猜測變量的生命周期,歸納了支持 TLS 的多核平臺的設(shè)計</p><p>  空間,提出了探索該設(shè)計空間的若干方法;最后,指出了 TLS 技術(shù)當(dāng)前面臨的挑</p><p><b>  戰(zhàn)和未來發(fā)展趨勢。</b></p><p>  2、提出基于猜測數(shù)據(jù)生命周期的猜測數(shù)據(jù)管理機制 Cache Copy-on-Write</p>

61、<p>  傳統(tǒng)的 TLS 系統(tǒng)由于沒有針對猜測數(shù)據(jù)管理做專門的優(yōu)化,導(dǎo)致其在猜測數(shù)</p><p>  據(jù)管理方面開銷過大,性能不佳。本文通過對 TLS 技術(shù)分析,提出了基于猜測變</p><p>  量生命周期的 Cache Copy-on-Write 猜測數(shù)據(jù)管理機制。Cache Copy-on-Write 機制</p><p>  采用類似于操作系

62、統(tǒng) Copy on Write 的技術(shù)實現(xiàn)對猜測變量的動態(tài)管理,減少了線</p><p>  程創(chuàng)建時拷貝數(shù)據(jù)的開銷。另外,Cache Copy-on-Write 機制支持猜測線程間通信,</p><p>  通過這一機制可以消除由猜測線程間共享變量沖突帶來的線程多次回滾,從而提</p><p>  高了線程執(zhí)行成功率,進而提高了性能。</p><

63、;p>  3、提出采用 Enhanced Local Memory 的猜測數(shù)據(jù)管理機制的實現(xiàn)</p><p>  從性能上來說,Cache Copy-on-Write 機制具有高效的猜測數(shù)據(jù)管理能力并且</p><p><b>  第 i 頁</b></p><p><b>  萬方數(shù)據(jù)</b></p>

64、<p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p>  管理產(chǎn)生的開銷較少。而采用 Enhanced Local Memory 作為猜測線程的私有數(shù)據(jù)緩</p><p>  存可以最大限度地發(fā)揮 Cache Copy-on-Write 機制的優(yōu)勢。首先,Enhanced Local</p><p>  Memory 具有訪問速度快的特點;其

65、次,Enhanced Local Memory 是片上存儲器。</p><p>  基于這兩點,同時結(jié)合 Cache Copy-on-Write 機制,就實現(xiàn)了一種具有高效猜測數(shù)</p><p>  據(jù)管理的 TLS 系統(tǒng)。</p><p>  本文基于 SESC 模擬器實現(xiàn)了采用 Enhanced Local Memory 的 TLS 系統(tǒng)猜測數(shù)</p>

66、;<p>  據(jù)管理機制,并針對測試程序進行了詳細的性能測試分析。實驗的結(jié)果驗證了本</p><p>  文所提出的猜測數(shù)據(jù)管理機制的高效性和有效性。</p><p>  主題詞:線程級猜測執(zhí)行;并行編程模型;猜測變量管理;增強型局部存儲</p><p><b>  器</b></p><p><b&

67、gt;  第 ii 頁</b></p><p><b>  萬方數(shù)據(jù)</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p><b>  ABSTRACT</b></p><p>  With chip integration continues to impr

68、ove, more and more processor cores are</p><p>  integrated into a single chip, which results in the emergence of many-core processors.</p><p>  Different with the rapid development of multi-core

69、 architecture, parallel programming</p><p>  did not achieve a leapfrog development. Although traditional parallel programming</p><p>  models, such as data-parallel programming model, message p

70、assing programming</p><p>  model, shared memory programming model, make the programmers' work of</p><p>  parallelization easier to some extent, but they lack of a certain support for some&

71、lt;/p><p>  coarse-grained parallelism and they do not support the thread speculative execution,</p><p>  which also causes a huge waste of computing resources.</p><p>  TLS (Thread-Le

72、vel Speculation) is one of the typical mechanism in terms of</p><p>  mining coarse-grained parallelism in applications in the way of speculation.</p><p>  Its biggest advantage is the very simp

73、le programming model. The programmer can</p><p>  simply identify those sections of code that can be speculatively executed and the</p><p>  runtime system or hardware are responsible for ensuri

74、ng data dependencies between</p><p>  speculative threads are not destroyed. However, because of its high overhead and other</p><p>  reasons, TLS mechanism is not widely used.</p><p&

75、gt;  This paper presents and implements a kind of speculative data management</p><p>  mechanisms for TLS system, which has a simple programming model and low-overhead</p><p>  system management

76、. This mechanism not only implements an efficient speculative data</p><p>  management, under the circumstance of no reduction in the clock frequency of processor core, and to some extent, solves the problem

77、 of sharing data hazard betweenspeculative threads.</p><p>  The works and results of this paper are:</p><p>  1 The proposed concept of life cycle of the speculative variable</p><p&

78、gt;  The life cycle of speculative variable includes the generation, use and submission ofspeculative variable. According to the life cycle of speculative variable, this paperproposes a new TLS technical classification

79、 method and compares the advantages anddisadvantages of existing methods. In the meantime, this paper sums up the multi-coreplatform design space, which supports TLS, and proposes several ways to explore thedesign spa

80、ce. At last, this paper notes the current challenges and future t</p><p>  Because there is no special optimization for speculative data management intraditional TLS system, this results in its high-overhea

81、d and poor performance. Basedon the TLS technical analysis, this paper proposes Cache Copy-on-Write speculativedata management based on the life cycle of speculative data. Cache Copy-on-Write 第 iii 頁</p><p&

82、gt;<b>  萬方數(shù)據(jù)</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p>  mechanism implements dynamic management to speculative data, which is similar to</p><p>  Copy on Write technology

83、in operating system, and eliminates the overhead of copying</p><p>  data when threads are built. In addition, Cache Copy-on-Write mechanism supports</p><p>  speculative thread communication, t

84、hrough which TLS can eliminate many thread</p><p>  rollbacks due to sharing data hazard between speculative threads. Because of this, the</p><p>  successful rate of thread execution is enhance

85、d and so does the performance.</p><p>  3 The implement of speculative data management mechanism using Enhanced</p><p>  Local Memory</p><p>  From the point of performance, Cache C

86、opy-on-Write mechanism has the ability of</p><p>  high-efficiency speculative data management and low management overhead. However,</p><p>  using the Enhanced Local Memory as speculative threa

87、d private data cache can</p><p>  maximize Cache Copy-on-Write mechanism advantages. First, Enhanced Local</p><p>  Memory has the characteristics of high speed. Secondly, Enhanced Local Memory

88、is the</p><p>  on-chip memory. Based on these two points and combined with Cache Copy-on-Write</p><p>  mechanism, this paper implements a highly efficient data management TLS system.</p>

89、<p>  Based on SESC simulator, this paper implements a TLS speculative data</p><p>  management mechanism using Enhanced Local Memory and carries out a detailed</p><p>  analysis of perfo

90、rmance testing. The experimental results demonstrate that the proposed</p><p>  mechanism for speculative data management is efficient and effective.</p><p>  Key Words: TLS, Parallel Programmin

91、g Model, Speculative data</p><p>  management, Enhanced Local Memory</p><p><b>  第 iv 頁</b></p><p><b>  萬方數(shù)據(jù)</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文<

92、/p><p><b>  第一章 緒論</b></p><p><b>  研究背景與意義</b></p><p>  多核/眾核處理器發(fā)展趨勢</p><p>  隨著當(dāng)前計算機應(yīng)用領(lǐng)域的不斷深入,一些新興的計算應(yīng)用,如云計算,分</p><p>  布式計算,大數(shù)據(jù)等占據(jù)了大

93、量的計算資源并且計算數(shù)據(jù)呈現(xiàn)指數(shù)級爆炸式增長,</p><p>  使得用戶對處理器處理大規(guī)模數(shù)據(jù)的需求不斷提升。雖然處理器可以依靠提高單</p><p>  核頻率來滿足用戶的計算需求,但是受到物理因素的限制將不再具有可擴展性。</p><p>  眾所周知,處理器的發(fā)展一直在遵循著摩爾定律[1]——即每個芯片上集成的晶</p><p> 

94、 體管數(shù)(集成度)會每十八個月翻一番。但是不幸的是,這種將晶體管數(shù)轉(zhuǎn)換為</p><p>  性能增長的方式日趨困難。時至今日,晶體管數(shù)量已經(jīng)邁入十億個大關(guān),并且逐</p><p>  漸接近晶片尺度的物理極限。因此,性能的增長遇到了三個物理規(guī)律的限制:功</p><p>  耗、互連線延時以及設(shè)計空間和設(shè)計復(fù)雜度。</p><p>  綜合

95、這些因素導(dǎo)致了多核體系結(jié)構(gòu)的產(chǎn)生。多核處理器是指在一個處理器中</p><p>  集成多個完整的計算內(nèi)核的處理器。從執(zhí)行程序的角度看[2],可以將并行性分為:</p><p>  指令內(nèi)部并行、指令級并行、線程級并行、任務(wù)級或過程級并行以及作業(yè)或程序</p><p>  級并行。對于單核處理器來說,主要通過提高指令級并行來提高處理器的并行處</p>

96、<p>  理能力,例如,流水線技術(shù)、超標(biāo)量技術(shù)等,這一類型的并行是通過調(diào)度基本塊</p><p>  中的指令,并行執(zhí)行兩條或者多條指令,但是目前挖掘指令級并行的工作已經(jīng)趨</p><p>  于完善。而多核處理器則主要是開發(fā)線程級并行,它通過一個主進程控制并派生</p><p>  出多個線程,每個線程在一個處理器核上并發(fā)執(zhí)行實現(xiàn)。而線程間數(shù)據(jù)的共享則

97、</p><p>  是利用處理器核共享的寄存器或緩存單元來實現(xiàn)。</p><p>  在硬件結(jié)構(gòu)上,按照共享 Cache 的層次可以把片上多處理器結(jié)構(gòu)[3]分為三類: 共享 L1 Cache、共享 L2 Cache 和共享內(nèi)存。在共享 L1 Cache 的多核處理器中,L1 Cache 被多個處理器核共享,即各處理器核使用 L1 Cache 實現(xiàn)它們之間的連接。在共享 L2 Cach

98、e 的結(jié)構(gòu)中,每個處理器核具有一個獨立的 L1 Cache,而多個處理器核共享 L2 Cache。在共享內(nèi)存的體系結(jié)構(gòu)中,每個處理器核要么具有獨立的 L1Cache 和獨立的 L2 Cache 存儲結(jié)構(gòu),要么處理器核不使用 Cache 存儲結(jié)構(gòu),而是每個處理器核使用共享主存進行連接。圖 1.1 展示了一種簡單的共享二級 Cache 的片上多核處理器的結(jié)構(gòu)。</p><p><b>  第 1 頁

99、</b></p><p><b>  萬方數(shù)據(jù)</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p>  CPU 核 1 CPU 核 2 CPU 核 n</p><p>  LD-1 LI-1 LD-1 LI-1 LD-1 LI-1</p><p>  

100、Shared L2 Cache</p><p>  圖 1.1 共享一級緩存的片上多核處理器結(jié)構(gòu)</p><p>  另 外 , 在 多 核 體 系 結(jié) 構(gòu) 的 基 礎(chǔ) 上 還 可 以 同 時 搭 配 同 時 多 線 程 技 術(shù) [2]</p><p> ?。⊿imultaneous Multi-Thread)來進一步提升處理器的并行處理能力。同時多線程</p

101、><p>  技術(shù)是一種在多流出、動態(tài)調(diào)度處理器上開發(fā)線程級并行和指令級并行的改進的</p><p>  多線程技術(shù)。采用寄存器重命名技術(shù)和指令動態(tài)調(diào)度機制,實現(xiàn)了來自各個獨立</p><p>  線程的多條指令的同時流出,而且不用考慮它們之間的相互依賴的數(shù)據(jù)關(guān)系;對</p><p>  于相互依賴的數(shù)據(jù)關(guān)系則可以通過動態(tài)調(diào)度機制得以解決。同時多

102、線程技術(shù)的使</p><p>  用提高了處理器資源的利用率,但另一方面,在硬件設(shè)置上需要設(shè)置龐大的寄存</p><p>  器文件用來保存多個線程的上下文,同時還要在關(guān)鍵處理步驟上盡量的降低開銷</p><p>  以保證性能不會下降。</p><p>  隨著多核體系結(jié)構(gòu)的發(fā)展,多核處理器的硬件結(jié)構(gòu)也出現(xiàn)了不同類型,其設(shè)</p>

103、;<p>  計大致可以分為三類:互連方式采用總線或者交換開關(guān)互連、流處理器和 GPU 以</p><p><b>  及網(wǎng)絡(luò)互連處理器。</b></p><p>  最初的多核處理器中處理器核數(shù)量較小,因此就采用了最簡單的互連方式</p><p>  ——總線和交叉開關(guān),而且每個內(nèi)核的結(jié)構(gòu)相似且功能強大。這種結(jié)構(gòu)的始祖便<

104、/p><p>  是 Hydra[4]。這類處理器具有統(tǒng)一訪問存儲路徑并且具有強大的計算功能,但是總</p><p>  線和交換開關(guān)的互連卻成為系統(tǒng)性能和功耗的瓶頸。</p><p>  而隨著計算技術(shù)應(yīng)用的不斷深入,大規(guī)模數(shù)據(jù)并行計算模式異軍突起。流處</p><p>  理器和 GPU[5]針對數(shù)據(jù)并行計算采用了完全不同于傳統(tǒng)處理器設(shè)計。這

105、類處理器</p><p>  屬于單指令流多數(shù)據(jù)流(SIMD)處理器,它們的一條指令流可以同時對多個(組)</p><p>  數(shù)據(jù)進行相同的操作。這種處理模式可以充分發(fā)揮大規(guī)模數(shù)據(jù)并行的優(yōu)勢,但是</p><p>  需要對應(yīng)用程序進行大量優(yōu)化來挖掘其并行性而且其性能提升還受限于程序本身</p><p>  的并行性。目前這類處理器的發(fā)展趨

106、勢是異構(gòu)多核設(shè)計,程序中串行的部分能在</p><p>  一個強大的單核上運行,而并行部分則通過很多小核來實現(xiàn)加速。</p><p>  不論是總線設(shè)計,還是流處理器,都沒有從根本上改變傳統(tǒng)的互連方式,因</p><p>  此人們提出了片上網(wǎng)絡(luò)的方法,眾多處理器核使用分布式通訊從而避免了集中式</p><p><b>  第 2

107、 頁</b></p><p><b>  萬方數(shù)據(jù)</b></p><p>  國防科學(xué)技術(shù)大學(xué)研究生院碩士學(xué)位論文</p><p>  帶來的系統(tǒng)性能瓶頸以及較大的功耗開銷。但是就目前研究情況來看,其理論性</p><p>  能較高,但對于實際程序的優(yōu)化很難而且眾核的片上緩存一致性也是急需解決的</

108、p><p><b>  問題。</b></p><p>  另外,在多核處理器上集成多個結(jié)構(gòu)簡單、功耗低的核心以及應(yīng)用可重構(gòu)技</p><p>  術(shù)也是未來多核體系結(jié)構(gòu)的發(fā)展方向。</p><p>  多核多線程并行編程模型的發(fā)展</p><p>  雖然多核處理器的出現(xiàn)為解決大規(guī)模數(shù)據(jù)處理問題提供

109、了豐富的計算資源并</p><p>  且其硬件結(jié)構(gòu)不是十分復(fù)雜,但是要將這些資源轉(zhuǎn)化為應(yīng)用程序的性能提升還需</p><p>  要多核系統(tǒng)的軟件支持[6]。隨著多核處理器集成的核心數(shù)目不斷增多,為了提高多</p><p>  核計算機系統(tǒng)性能以及滿足可靠性需求的增長,研究和開發(fā)新型軟件編程模型的</p><p><b>  工作

110、顯得格外重要。</b></p><p>  并行編程模型是指并行編程的一種形式。并行編程時,程序員將程序各模塊</p><p>  并行執(zhí)行,按照模塊間的通信方式,可以將目前并行編程模型[7]分為三類:數(shù)據(jù)并</p><p>  行編程模型、消息傳遞編程模型以及共享內(nèi)存編程模型。</p><p>  數(shù)據(jù)并行編程模型可以將一條指令

111、的操作同時處理不同的數(shù)據(jù),因此在 SIMD</p><p>  類型的并行計算機上,這種編程模型得到了廣泛的應(yīng)用。對于這種編程模型,程</p><p>  序員只需要簡單地標(biāo)明需要并行處理的數(shù)據(jù)以及所執(zhí)行的并行操作就可以完成數(shù)</p><p>  據(jù)并行編程。例如,在向量機執(zhí)行語句 A=B+C 就可以實現(xiàn)將數(shù)組 B 和數(shù)組 C 的</p><p&

112、gt;  對應(yīng)元素并行相加后,將結(jié)果賦給數(shù)組 A 的功能。所以數(shù)據(jù)并行編程模型的表達</p><p>  相對簡單,并且它不需要程序員了解計算機內(nèi)部是如何并行執(zhí)行該操作的。但是,</p><p>  這種模型僅適用與數(shù)據(jù)并行問題。對于非數(shù)據(jù)并行類問題,由于這種編程模型很</p><p>  難或者無法表達其他形式的并行特征,所以一般難以取得較高的效率。數(shù)據(jù)并行<

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論