日韩成人黄色,透逼一级毛片,狠狠躁天天躁中文字幕,久久久久久亚洲精品不卡,在线看国产美女毛片2019,黄片www.www,一级黄色毛a视频直播

面向分布式大模型訓(xùn)練的通信調(diào)度方法、電子設(shè)備、介質(zhì)與流程

文檔序號(hào):42029668發(fā)布日期:2025-05-30 17:16閱讀:6來源:國知局

本發(fā)明屬于計(jì)算機(jī)分布式大模型訓(xùn)練中網(wǎng)絡(luò)流量調(diào)度領(lǐng)域,尤其涉及一種面向分布式大模型訓(xùn)練的通信調(diào)度方法、電子設(shè)備、介質(zhì)。


背景技術(shù):

1、分布式深度學(xué)習(xí)的訓(xùn)練環(huán)境中,隨著模型規(guī)模和復(fù)雜度的不斷增加,訓(xùn)練過程中的通信需求與流量模式變得更加動(dòng)態(tài)復(fù)雜。特別是在訓(xùn)練圖神經(jīng)網(wǎng)絡(luò)(gnn)和混合專家模型(moe)等復(fù)雜模型時(shí),不同計(jì)算任務(wù)和通信任務(wù)會(huì)在訓(xùn)練的不同迭代中展現(xiàn)出顯著的流量變化特性。傳統(tǒng)的靜態(tài)網(wǎng)絡(luò)拓?fù)湓趹?yīng)對(duì)這些動(dòng)態(tài)變化時(shí)往往缺乏靈活性,無法適應(yīng)頻繁的通信需求調(diào)整,導(dǎo)致網(wǎng)絡(luò)資源利用率低、通信開銷大、模型訓(xùn)練速度受限。

2、為了解決這一問題,現(xiàn)有研究引入了動(dòng)態(tài)網(wǎng)絡(luò)拓?fù)鋬?yōu)化,通過在運(yùn)行時(shí)對(duì)網(wǎng)絡(luò)進(jìn)行重構(gòu)來提高通信效率。然而,頻繁的拓?fù)渲貥?gòu)可能會(huì)引入額外的開銷,涉及較大的交換機(jī)和鏈接的重構(gòu)成本,在拓?fù)渥兓^程中,對(duì)于allreduce等同步操作的模型并行和數(shù)據(jù)并行任務(wù),這種延遲會(huì)帶來性能損耗。


技術(shù)實(shí)現(xiàn)思路

1、本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的不足,提供了一種面向分布式大模型訓(xùn)練的通信調(diào)度方法、電子設(shè)備、介質(zhì)。

2、第一方面,本發(fā)明實(shí)施例提供了一種面向分布式大模型訓(xùn)練的通信調(diào)度方法,所述方法包括:

3、獲取用于分布式大模型訓(xùn)練的服務(wù)器數(shù)量、每個(gè)服務(wù)器的度數(shù)、allreduce流量的傳輸流量需求、mp流量的傳輸流量需求;

4、將每個(gè)服務(wù)器的度數(shù)根據(jù)allreduce流量、mp流量的傳輸需求的比例,劃分為allreduce流量子拓?fù)?、mp流量子拓?fù)涞亩葦?shù);

5、根據(jù)allreduce流量、mp流量的傳輸需求以及度數(shù)分別構(gòu)建allreduce子拓?fù)?、mp子拓?fù)洌唤M合allreduce子拓?fù)?、mp子拓?fù)洌玫酵負(fù)鋱D;根據(jù)拓?fù)鋱D配置光交換機(jī)實(shí)現(xiàn)物理拓?fù)洌?/p>

6、監(jiān)控分布式大模型訓(xùn)練過程中所有服務(wù)器的流量變化,當(dāng)流量變化時(shí),獲取所有分布式大模型訓(xùn)練任務(wù)數(shù)組、鏈路數(shù)組、候選放置位置數(shù)組;其中,候選放置位置表示將某一任務(wù)放置在某一服務(wù)器上;

7、遍歷每一候選放置位置,對(duì)于每一候選放置位置,根據(jù)拓?fù)鋱D中構(gòu)建對(duì)應(yīng)的親和圖,在帶寬需求滿足鏈路容量約束的條件下計(jì)算親和圖中所有鏈路的兼容性得分,將兼容性得分最高的候選放置位置作為最佳放置位置;計(jì)算最佳放置位置對(duì)應(yīng)的親和圖中所有連接子圖的時(shí)延,將所有連接子圖的時(shí)延總和作為總時(shí)延,以總時(shí)延最小為優(yōu)化目標(biāo);根據(jù)最佳放置位置以及總時(shí)延在物理拓?fù)渖线M(jìn)行分布式大模型訓(xùn)練。

8、第二方面,本發(fā)明實(shí)施例提供了一種面向分布式大模型訓(xùn)練的通信調(diào)度系統(tǒng),所述系統(tǒng)包括:

9、拓?fù)渲貥?gòu)組件,用于獲取用于分布式大模型訓(xùn)練的服務(wù)器數(shù)量、每個(gè)服務(wù)器的度數(shù)、allreduce流量的傳輸流量需求、mp流量的傳輸流量需求;將每個(gè)服務(wù)器的度數(shù)根據(jù)allreduce流量、mp流量的傳輸需求的比例,劃分為allreduce流量子拓?fù)?、mp流量子拓?fù)涞亩葦?shù);根據(jù)allreduce流量、mp流量的傳輸需求以及度數(shù)分別構(gòu)建allreduce子拓?fù)洹p子拓?fù)?;組合allreduce子拓?fù)?、mp子拓?fù)?,得到拓?fù)鋱D;根據(jù)拓?fù)鋱D配置光交換機(jī)實(shí)現(xiàn)物理拓?fù)洌?/p>

10、流量感知組件,用于監(jiān)控分布式大模型訓(xùn)練過程中所有服務(wù)器的流量變化,當(dāng)流量變化時(shí),獲取所有分布式大模型訓(xùn)練任務(wù)數(shù)組、鏈路數(shù)組、候選放置位置數(shù)組;其中,候選放置位置表示將某一任務(wù)放置在某一服務(wù)器上;遍歷每一候選放置位置,對(duì)于每一候選放置位置,根據(jù)拓?fù)鋱D中構(gòu)建對(duì)應(yīng)的親和圖,在帶寬需求滿足鏈路容量約束的條件下計(jì)算親和圖中所有鏈路的兼容性得分,將兼容性得分最高的候選放置位置作為最佳放置位置;計(jì)算最佳放置位置對(duì)應(yīng)的親和圖中所有連接子圖的時(shí)延,將所有連接子圖的時(shí)延總和作為總時(shí)延,以總時(shí)延最小為優(yōu)化目標(biāo);根據(jù)最佳放置位置以及總時(shí)延在物理拓?fù)渖线M(jìn)行分布式大模型訓(xùn)練。

11、第二方面,本發(fā)明實(shí)施例提供了一種電子設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器與所述處理器耦接;其中,所述存儲(chǔ)器用于存儲(chǔ)程序數(shù)據(jù),所述處理器用于執(zhí)行所述程序數(shù)據(jù)以實(shí)現(xiàn)上述的面向分布式大模型訓(xùn)練的通信調(diào)度方法。

12、第三方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的面向分布式大模型訓(xùn)練的通信調(diào)度方法。

13、第四方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述的面向分布式大模型訓(xùn)練的通信調(diào)度方法。

14、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:

15、本發(fā)明提供了一種面向分布式大模型訓(xùn)練的通信調(diào)度方法,用于分布式大模型訓(xùn)練任務(wù)以及基于傳輸流量需求構(gòu)建拓?fù)鋱D,并根據(jù)拓?fù)鋱D配置光交換機(jī)實(shí)現(xiàn)物理拓?fù)?;同時(shí),監(jiān)控分布式大模型訓(xùn)練過程中所有服務(wù)器的流量變化,調(diào)整作業(yè)的時(shí)延,減少網(wǎng)絡(luò)擁塞和鏈路瓶頸,從而減少物理拓?fù)涞闹貥?gòu)需求。本發(fā)明通過智能調(diào)度和動(dòng)態(tài)拓?fù)涞慕Y(jié)合,實(shí)現(xiàn)分布式大模型訓(xùn)練中通信開銷與拓?fù)渲貥?gòu)成本的雙重最小化,優(yōu)化通信效率。



技術(shù)特征:

1.一種面向分布式大模型訓(xùn)練的通信調(diào)度方法,其特征在于,所述方法包括:

2.根據(jù)權(quán)利要求1所述的一種面向分布式大模型訓(xùn)練的通信調(diào)度方法,其特征在于,獲取用于分布式大模型訓(xùn)練的服務(wù)器數(shù)量、每個(gè)服務(wù)器的度數(shù)、allreduce流量的傳輸流量需求、mp流量的傳輸流量需求的過程包括:

3.根據(jù)權(quán)利要求1所述的一種面向分布式大模型訓(xùn)練的通信調(diào)度方法,其特征在于,構(gòu)建allreduce子拓?fù)涞倪^程包括:

4.根據(jù)權(quán)利要求1所述的一種面向分布式大模型訓(xùn)練的通信調(diào)度方法,其特征在于,構(gòu)建mp子拓?fù)涞倪^程包括:

5.根據(jù)權(quán)利要求1所述的一種面向分布式大模型訓(xùn)練的通信調(diào)度方法,其特征在于,在帶寬需求滿足鏈路容量約束的條件下計(jì)算親和圖中所有鏈路的兼容性得分的過程包括:

6.根據(jù)權(quán)利要求1所述的一種面向分布式大模型訓(xùn)練的通信調(diào)度方法,其特征在于,所述方法還包括:

7.一種面向分布式大模型訓(xùn)練的通信調(diào)度系統(tǒng),其特征在于,所述系統(tǒng)包括:

8.一種電子設(shè)備,包括存儲(chǔ)器和處理器,其特征在于,所述存儲(chǔ)器與所述處理器耦接;其中,所述存儲(chǔ)器用于存儲(chǔ)程序數(shù)據(jù),所述處理器用于執(zhí)行所述程序數(shù)據(jù)以實(shí)現(xiàn)上述權(quán)利要求1-6任一項(xiàng)所述的面向分布式大模型訓(xùn)練的通信調(diào)度方法。

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如權(quán)利要求1-6中任一所述的面向分布式大模型訓(xùn)練的通信調(diào)度方法。

10.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,其特征在于,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-6中任一所述的面向分布式大模型訓(xùn)練的通信調(diào)度方法。


技術(shù)總結(jié)
本發(fā)明公開了一種面向分布式大模型訓(xùn)練的通信調(diào)度方法、電子設(shè)備、介質(zhì),包括:獲取服務(wù)器集群規(guī)模、度數(shù)及AllReduce與MP流量的傳輸需求比例,按兩類流量需求比例拆分為AllReduce流量、MP流量子拓?fù)涞亩葦?shù),基于此構(gòu)建AllReduce子拓?fù)浜蚆P子拓?fù)洌M合得到拓?fù)鋱D,并利用光交換機(jī)實(shí)現(xiàn)物理拓?fù)洌划?dāng)流量變化時(shí),獲取所有分布式大模型訓(xùn)練任務(wù)數(shù)組、鏈路數(shù)組、候選放置位置數(shù)組;根據(jù)拓?fù)鋱D中構(gòu)建每一候選放置位置對(duì)應(yīng)的親和圖,計(jì)算親和圖中所有鏈路的兼容性得分,得到最佳放置位置;計(jì)算最佳放置位置對(duì)應(yīng)的親和圖中所有連接子圖的時(shí)延,將其總和作為總時(shí)延,以總時(shí)延最小為優(yōu)化目標(biāo);根據(jù)最佳放置位置以及總時(shí)延在物理拓?fù)渖线M(jìn)行分布式大模型訓(xùn)練。

技術(shù)研發(fā)人員:顏佳,聶偉,凃化清,李晟,衣曉玉,朱俊,鄒濤
受保護(hù)的技術(shù)使用者:之江實(shí)驗(yàn)室
技術(shù)研發(fā)日:
技術(shù)公布日:2025/5/29
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1