日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

一種CPU-GPU異構(gòu)系統(tǒng)工作負(fù)載動(dòng)態(tài)分配方法與系統(tǒng)與流程

文檔序號(hào):42040795發(fā)布日期:2025-05-30 17:39閱讀:8來源:國知局

本發(fā)明涉及內(nèi)存管理,特別涉及一種cpu-gpu異構(gòu)系統(tǒng)工作負(fù)載動(dòng)態(tài)分配方法與系統(tǒng)。


背景技術(shù):

1、隨著科技的飛速發(fā)展,各類計(jì)算任務(wù)的復(fù)雜度和規(guī)模呈爆發(fā)式增長。在科學(xué)研究中,如氣候模擬、分子動(dòng)力學(xué)模擬等,需要處理的數(shù)據(jù)量和計(jì)算量極其龐大。這些任務(wù)如果僅依靠單一的cpu或gpu進(jìn)行處理,往往效率低下,無法滿足實(shí)際應(yīng)用的需求

2、為了應(yīng)對(duì)日益增長的計(jì)算需求,cpu-gpu異構(gòu)系統(tǒng)應(yīng)運(yùn)而生并得到了廣泛應(yīng)用。cpu具有強(qiáng)大的邏輯控制和復(fù)雜指令處理能力,擅長處理串行任務(wù)和系統(tǒng)管理;而gpu則以其高度并行的計(jì)算架構(gòu),在處理大規(guī)模數(shù)據(jù)并行計(jì)算任務(wù)時(shí)展現(xiàn)出巨大優(yōu)勢(shì)。這種異構(gòu)系統(tǒng)結(jié)合了兩者的長處,成為了現(xiàn)代計(jì)算領(lǐng)域的重要基礎(chǔ)設(shè)施。然而,如何充分發(fā)揮這種異構(gòu)系統(tǒng)的性能優(yōu)勢(shì),實(shí)現(xiàn)cpu與gpu之間任務(wù)的高效分配,成為了亟待解決的關(guān)鍵問題。

3、目前,在cpu-gpu異構(gòu)系統(tǒng)中,任務(wù)分配方式大多較為簡單和靜態(tài)。許多應(yīng)用采用固定比例的任務(wù)分配策略,或者僅僅根據(jù)任務(wù)的類型進(jìn)行粗略的劃分,如將所有計(jì)算密集型任務(wù)分配給gpu,而將其他任務(wù)分配給cpu。這種方式?jīng)]有充分考慮到任務(wù)的動(dòng)態(tài)特性以及系統(tǒng)資源的實(shí)時(shí)狀態(tài),無法根據(jù)這些變化進(jìn)行實(shí)時(shí)調(diào)整,導(dǎo)致系統(tǒng)資源利用率低下,任務(wù)處理時(shí)間延長。

4、基于上述問題,本發(fā)明提出了一種cpu-gpu異構(gòu)系統(tǒng)工作負(fù)載動(dòng)態(tài)分配方法與系統(tǒng)。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明為了彌補(bǔ)現(xiàn)有技術(shù)的缺陷,提供了一種簡單高效的cpu-gpu異構(gòu)系統(tǒng)工作負(fù)載動(dòng)態(tài)分配方法與系統(tǒng)。

2、本發(fā)明是通過如下技術(shù)方案實(shí)現(xiàn)的:

3、一種cpu-gpu異構(gòu)系統(tǒng)工作負(fù)載動(dòng)態(tài)分配方法,其特征在于:包括以下步驟:

4、步驟s1、任務(wù)數(shù)據(jù)預(yù)處理

5、cpu在接收到任務(wù)數(shù)據(jù)后,通過預(yù)處理單元對(duì)任務(wù)數(shù)據(jù)進(jìn)行初步的解析和預(yù)處理,提取任務(wù)的關(guān)鍵特征信息,包括任務(wù)數(shù)據(jù)量、任務(wù)優(yōu)先級(jí)以及當(dāng)前系統(tǒng)中cpu和gpu的負(fù)載情況;同時(shí)判斷任務(wù)類型;

6、步驟s2、數(shù)據(jù)傳遞與pso算法計(jì)算

7、經(jīng)過預(yù)處理后,cpu將與任務(wù)相關(guān)的數(shù)據(jù)傳遞給fpga芯片,fpga芯片接收到數(shù)據(jù)后,利用其內(nèi)部的硬件邏輯實(shí)現(xiàn)pso算法,結(jié)合任務(wù)完成率和延遲模型進(jìn)行計(jì)算,找到最優(yōu)的cpu/gpu映射比例;

8、所述步驟s2中,fpga芯片根據(jù)任務(wù)完成率和延遲模型來評(píng)估不同的cpu/gpu映射比例方案的優(yōu)劣;

9、其中,任務(wù)完成率通過統(tǒng)計(jì)在單位時(shí)間內(nèi)已完成的任務(wù)數(shù)量與總?cè)蝿?wù)數(shù)量的比例來計(jì)算;延遲則通過記錄任務(wù)從提交到完成的時(shí)間差來獲取;

10、pso算法根據(jù)評(píng)估結(jié)果不斷進(jìn)行迭代搜索,直到找到最優(yōu)的cpu/gpu映射比例。

11、所述步驟s2中,pso算法實(shí)現(xiàn)過程如下:

12、步驟s2.1、初始化粒子群

13、首先,確定粒子數(shù)量,每個(gè)粒子代表一個(gè)cpu-gpu負(fù)載分配比例值,取值范圍在0-1之間,0表示全部任務(wù)由cpu執(zhí)行,1表示全部任務(wù)由gpu執(zhí)行;

14、為每個(gè)粒子隨機(jī)初始化速度,速度決定粒子在搜索空間中的移動(dòng)方向和步長;將每個(gè)粒子的初始位置設(shè)為其個(gè)體最優(yōu)位置(pbest);同時(shí)給任務(wù)完成率和延遲兩個(gè)參數(shù)分配隨機(jī)值,并計(jì)算此時(shí)的適應(yīng)度值;在所有粒子中找出適應(yīng)度最優(yōu)的位置和適應(yīng)度值,設(shè)為全局最優(yōu)位置(gbest)和全局最優(yōu)適應(yīng)度;

15、步驟s2.2、構(gòu)建適應(yīng)度函數(shù),計(jì)算適應(yīng)度值fitness;

16、綜合考慮任務(wù)完成率和延遲,構(gòu)建適應(yīng)度函數(shù):

17、fitness=ω1×r+ω2/log(l+1)

18、其中,r為任務(wù)完成率,計(jì)算公式如下:

19、r=(ncompleted/ntotal)/t

20、其中,ncompleted為在當(dāng)前cpu-gpu負(fù)載分配比例下,經(jīng)過任務(wù)執(zhí)行時(shí)間t后已完成任務(wù)的數(shù)量,ntotal為總?cè)蝿?wù)數(shù)量;這里的任務(wù)完成數(shù)量統(tǒng)計(jì)是通過cpu/gpu任務(wù)執(zhí)行記錄和監(jiān)測(cè)單元獲取得。

21、l為延遲時(shí)間,cpu任務(wù)執(zhí)行記錄與監(jiān)測(cè)單元和gpu任務(wù)執(zhí)行記錄與監(jiān)測(cè)單元利用時(shí)間戳記錄任務(wù)提交時(shí)間和完成任務(wù)得到結(jié)果的時(shí)間,計(jì)算兩者差值得到延遲;

22、計(jì)算公式如下:

23、l=tresult-tsubmit

24、其中,tsubmit為任務(wù)提交時(shí)間,tresult為得到結(jié)果的時(shí)間;

25、ω1和ω2為權(quán)重系數(shù),且ω1+ω2=1,權(quán)重系數(shù)根據(jù)任務(wù)的實(shí)際需求和特點(diǎn)進(jìn)行自定義調(diào)整;根據(jù)cpu預(yù)處理單元得到的任務(wù)類型映射出實(shí)際參與適應(yīng)度函數(shù)計(jì)算的數(shù)值;

26、步驟s2.3、更新個(gè)體最優(yōu)和全局最優(yōu)

27、針對(duì)每個(gè)粒子,將其當(dāng)前的適應(yīng)度值與個(gè)體最優(yōu)適應(yīng)度進(jìn)行比較,若當(dāng)前適應(yīng)度更優(yōu),則更新個(gè)體最優(yōu)位置(pbest)為當(dāng)前位置,個(gè)體最優(yōu)適應(yīng)度為當(dāng)前適應(yīng)度值;

28、然后,對(duì)比所有粒子的個(gè)體最優(yōu)適應(yīng)度,找出其中最優(yōu)的粒子,若找出的粒子的個(gè)體最優(yōu)適應(yīng)度優(yōu)于當(dāng)前的全局最優(yōu)適應(yīng)度,則更新全局最優(yōu)位置(gbest)和全局最優(yōu)適應(yīng)度;

29、步驟s2.4、更新粒子速度和位置

30、根據(jù)pso算法的基本公式更新粒子速度:

31、

32、其中,是粒子i在第(k+1)次迭代的速度,ω是慣性權(quán)重取值0.6,是粒子i在第k次迭代的速度;c1和c2是學(xué)習(xí)因子,均取值1.5;r1和r2是取值大于等于0,且和小于等于1的隨機(jī)數(shù),pbesti是粒子i的個(gè)體最優(yōu)位置,是粒子i在第k次迭代的位置,gbest是全局最優(yōu)位置;

33、根據(jù)更新后的速度來更新粒子位置:

34、

35、超出1的值設(shè)為1,小于0的值設(shè)為0;

36、步驟s2.5、判斷終止條件

37、判斷適應(yīng)度值是否收斂,即連續(xù)多次迭代中,全局最優(yōu)適應(yīng)度值的變化小于自定義閾值(某個(gè)極小的閾值,如0.001),若滿足收斂條件,則終止算法,并輸出優(yōu)化結(jié)果。

38、步驟s3、任務(wù)分配與執(zhí)行

39、fpga芯片計(jì)算出優(yōu)化后的cpu/gpu映射比例后,將結(jié)果返回給cpu中的調(diào)度與分配單元;調(diào)度與分配單元依據(jù)返回的優(yōu)化結(jié)果進(jìn)行任務(wù)在cpu和gpu之間的精確分配;

40、對(duì)于分配到cpu的任務(wù),cpu按照其自身的執(zhí)行邏輯和調(diào)度策略進(jìn)行處理;

41、對(duì)于分配到gpu的任務(wù),cpu將任務(wù)數(shù)據(jù)和相關(guān)指令發(fā)送給gpu;gpu接收到任務(wù)后,把任務(wù)合理的分配到空閑的sm(流多處理器)中,利用其并行計(jì)算能力高效地執(zhí)行任務(wù);

42、所述步驟s3中,在任務(wù)執(zhí)行過程中,cpu任務(wù)執(zhí)行記錄與監(jiān)測(cè)單元和gpu任務(wù)執(zhí)行記錄與監(jiān)測(cè)單元分別實(shí)時(shí)記錄在cpu和gpu中任務(wù)的執(zhí)行情況,包括已完成的任務(wù)量和當(dāng)前任務(wù)的執(zhí)行進(jìn)度,同時(shí)監(jiān)測(cè)任務(wù)執(zhí)行過程中的延遲情況,包括數(shù)據(jù)傳輸延遲與計(jì)算延遲。

43、步驟s4、反饋與調(diào)整

44、cpu任務(wù)執(zhí)行記錄與監(jiān)測(cè)單元和gpu任務(wù)執(zhí)行記錄與監(jiān)測(cè)單元將執(zhí)行過程中的任務(wù)完成情況和延遲數(shù)據(jù)反饋給fpga芯片,fpga芯片接收到反饋數(shù)據(jù)后,對(duì)當(dāng)前的pso算法計(jì)算進(jìn)行實(shí)時(shí)調(diào)整;

45、如果發(fā)現(xiàn)當(dāng)前的cpu/gpu映射比例導(dǎo)致任務(wù)完成率較低或者延遲過高,fpga芯片將調(diào)整pso算法的搜索方向,重新計(jì)算更優(yōu)的cpu/gpu映射比例,然后再次將結(jié)果返回給cpu進(jìn)行任務(wù)分配的調(diào)整,如此循環(huán)往復(fù),以實(shí)現(xiàn)系統(tǒng)的動(dòng)態(tài)優(yōu)化。

46、一種cpu-gpu異構(gòu)系統(tǒng)工作負(fù)載動(dòng)態(tài)分配系統(tǒng),包括cpu-gpu異構(gòu)系統(tǒng)和fpga芯片;

47、cpu系統(tǒng)中設(shè)有預(yù)處理單元,cpu任務(wù)執(zhí)行記錄與監(jiān)測(cè)單元和調(diào)度與分配單元;

48、所述預(yù)處理單元負(fù)責(zé)在cpu接收到任務(wù)數(shù)據(jù)后,對(duì)任務(wù)數(shù)據(jù)進(jìn)行初步的解析和預(yù)處理,提取任務(wù)的關(guān)鍵特征信息,包括任務(wù)數(shù)據(jù)量、任務(wù)優(yōu)先級(jí)以及當(dāng)前系統(tǒng)中cpu和gpu的負(fù)載情況,并判斷任務(wù)類型;

49、所述cpu任務(wù)執(zhí)行記錄與監(jiān)測(cè)單元負(fù)責(zé)在任務(wù)執(zhí)行過程中,實(shí)時(shí)記錄cpu中任務(wù)的執(zhí)行情況,包括已完成的任務(wù)量和當(dāng)前任務(wù)的執(zhí)行進(jìn)度,同時(shí)監(jiān)測(cè)任務(wù)執(zhí)行過程中的延遲情況,包括數(shù)據(jù)傳輸延遲與計(jì)算延遲;

50、所述調(diào)度與分配單元反正根據(jù)fpga芯片計(jì)算出的優(yōu)化后的cpu/gpu映射比例,實(shí)現(xiàn)任務(wù)在cpu和gpu之間的精確分配;

51、gpu系統(tǒng)中設(shè)有g(shù)pu任務(wù)執(zhí)行記錄與監(jiān)測(cè)單元;

52、所述gpu任務(wù)執(zhí)行記錄與監(jiān)測(cè)單元負(fù)責(zé)在任務(wù)執(zhí)行過程中,實(shí)時(shí)記錄gpu中任務(wù)的執(zhí)行情況,包括已完成的任務(wù)量和當(dāng)前任務(wù)的執(zhí)行進(jìn)度,同時(shí)監(jiān)測(cè)任務(wù)執(zhí)行過程中的延遲情況,包括數(shù)據(jù)傳輸延遲與計(jì)算延遲;

53、fpga芯片中設(shè)有pso算法硬件加速模塊,pso算法硬件加速模塊中包括數(shù)據(jù)存儲(chǔ)單元,計(jì)算單元和迭代次數(shù)控制器;

54、所述數(shù)據(jù)存儲(chǔ)單元負(fù)責(zé)存儲(chǔ)粒子信息,任務(wù)信息和中間結(jié)果信息;

55、每個(gè)粒子在pso算法中代表一種cpu/gpu映射比例,所述例子信息包括當(dāng)前位置值,速度值和個(gè)體最優(yōu)位置(pbest)及其對(duì)應(yīng)的適應(yīng)度值;其中,粒子的當(dāng)前位置即對(duì)應(yīng)的cpu/gpu映射比例數(shù)值,取值范圍在0-1之間;速度值決定粒子在搜索空間中的移動(dòng)方向和步長;

56、所述數(shù)據(jù)存儲(chǔ)單元采用寄存器文件來實(shí)現(xiàn)粒子信息的存儲(chǔ)。所述任務(wù)信息包括總?cè)蝿?wù)量,已完成的任務(wù)量和任務(wù)的類型信息;

57、所述數(shù)據(jù)存儲(chǔ)單元采用隨機(jī)存儲(chǔ)器ram來實(shí)現(xiàn)任務(wù)信息的存儲(chǔ)。

58、所述中間結(jié)果信息是在pso算法的計(jì)算過程中產(chǎn)生中間結(jié)果。

59、所述數(shù)據(jù)存儲(chǔ)單元采用fi先進(jìn)先出隊(duì)列fo存儲(chǔ)中間結(jié)果信息。

60、所述計(jì)算單元負(fù)責(zé)根據(jù)pso算法公式,實(shí)現(xiàn)粒子速度與位置的更新計(jì)算,同時(shí)基于任務(wù)完成率和延遲數(shù)據(jù),完成計(jì)算適應(yīng)度值,為pso算法的迭代提供核心運(yùn)算支持,找到最優(yōu)的cpu/gpu映射比例。

61、一種cpu-gpu異構(gòu)系統(tǒng)工作負(fù)載動(dòng)態(tài)分配設(shè)備,其特征在于,包括:

62、一個(gè)或多個(gè)處理器、一個(gè)或多個(gè)存儲(chǔ)器以及一個(gè)或多個(gè)程序,其中一個(gè)或多個(gè)程序存儲(chǔ)在所述一個(gè)或多個(gè)存儲(chǔ)器中并被配置為由所述一個(gè)或多個(gè)處理器執(zhí)行,所述一個(gè)或多個(gè)程序包括用于執(zhí)行上述方法中的任一方法的指令。

63、一種可讀存儲(chǔ)介質(zhì),其特征在于:所述可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的方法。

64、本發(fā)明的有益效果是:該cpu-gpu異構(gòu)系統(tǒng)工作負(fù)載動(dòng)態(tài)分配方法與系統(tǒng),能夠根據(jù)任務(wù)的動(dòng)態(tài)特性以及系統(tǒng)資源的實(shí)時(shí)狀態(tài)對(duì)工作負(fù)載進(jìn)行實(shí)時(shí)調(diào)整,不僅提高了系統(tǒng)資源的利用率,還大幅提高了任務(wù)處理效率。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1