本技術(shù)涉及到智能農(nóng)機(jī)和多機(jī)器人調(diào)度方法,特別涉及到基于強(qiáng)化學(xué)習(xí)的農(nóng)業(yè)多機(jī)器人任務(wù)分配方法和系統(tǒng)。
背景技術(shù):
1、目前,隨著全球農(nóng)業(yè)智能化和數(shù)字化的發(fā)展,農(nóng)業(yè)已進(jìn)入"無(wú)人農(nóng)場(chǎng)"和"智慧農(nóng)業(yè)"領(lǐng)域。這些作業(yè)通常需要多輛車(chē)協(xié)同作業(yè)以提高效率,這就需要考慮如何高效完成車(chē)輛調(diào)度,合理分配作業(yè)序列,提高農(nóng)業(yè)車(chē)輛資源的利用率。為解決這些難題,有人提出了農(nóng)業(yè)多機(jī)器人任務(wù)分配問(wèn)題,這是多機(jī)器人系統(tǒng)的核心技術(shù),也是智慧農(nóng)業(yè)和大規(guī)模農(nóng)場(chǎng)管理的重要應(yīng)用。
2、在農(nóng)業(yè)多機(jī)器人任務(wù)分配方法過(guò)程中,機(jī)器人的完成時(shí)間和工作量平衡通常是實(shí)際作業(yè)場(chǎng)景中關(guān)注的兩個(gè)關(guān)鍵因素,前者通常用最后一輛機(jī)器人停止工作的運(yùn)行時(shí)間來(lái)表示,與路徑成本直接相關(guān)。傳統(tǒng)的農(nóng)業(yè)任務(wù)分配方法主要依靠人的經(jīng)驗(yàn)決策,缺乏有效的分配手段。
3、農(nóng)業(yè)多機(jī)器人任務(wù)分配方法的本質(zhì)是在特定操作約束條件下,將多輛農(nóng)用車(chē)映射到任務(wù)地塊上,這是一個(gè)典型的組合優(yōu)化問(wèn)題。鑒于多旅行推銷(xiāo)員問(wèn)題是各種組合優(yōu)化場(chǎng)景的基礎(chǔ)模型,包括車(chē)輛路線規(guī)劃(vrp)、熱軋調(diào)度和全球?qū)Ш叫l(wèi)星系統(tǒng)測(cè)量網(wǎng)絡(luò)設(shè)計(jì)。因此,嘗試在農(nóng)業(yè)實(shí)際作業(yè)需求條件的約束下,參考mtsp的求解方法來(lái)求解農(nóng)業(yè)多機(jī)器人任務(wù)分配方法。目前對(duì)農(nóng)業(yè)多機(jī)器人任務(wù)分配問(wèn)題的探索包括確定性方法、啟發(fā)式算法、基于市場(chǎng)和基于學(xué)習(xí)的策略。但是,在現(xiàn)有技術(shù)存在以下缺點(diǎn):
4、1)確定性方法,旨在最大限度地減少工作機(jī)器人的等待時(shí)間和農(nóng)業(yè)能源消耗,同時(shí)確保滿足機(jī)器人的速度限制和任務(wù)的正確排序。盡管這些方法非常精確,但由于依賴(lài)于精確的數(shù)學(xué)建模和環(huán)境預(yù)測(cè),在動(dòng)態(tài)和復(fù)雜的農(nóng)業(yè)環(huán)境中往往缺乏靈活性?;谑袌?chǎng)的方法,包括同構(gòu)農(nóng)業(yè)機(jī)器人的動(dòng)態(tài)任務(wù)分配方法,如利用增強(qiáng)型合同網(wǎng)絡(luò)算法,可將作業(yè)集群的時(shí)間成本降低30.20%至34.09%。此外,基于啟發(fā)式的聚類(lèi)拍賣(mài)(hbca)方法,將pfci引入拍賣(mài)機(jī)制,以實(shí)現(xiàn)有效和高效的農(nóng)田任務(wù)分配。然而,基于市場(chǎng)的方法通常計(jì)算成本較高,而且在某些情況下可能導(dǎo)致資源分配不均,一些車(chē)輛可能超載,而另一些車(chē)輛則閑置。
5、2)啟發(fā)式算法,被認(rèn)為是一種有效而快速的方法,廣泛應(yīng)用于農(nóng)業(yè)多機(jī)器人調(diào)度和分配相關(guān)工作中,常用的算法包括遺傳算法(ga)、蟻群優(yōu)化(aco)、模擬退火(sa)和人工蜂群(abc)。根據(jù)任務(wù)分配模型,有文獻(xiàn)在考慮供需匹配、農(nóng)用車(chē)作業(yè)能力、作業(yè)周期、路徑成本等因素的基礎(chǔ)上,建立了基于改進(jìn)aco算法的任務(wù)分配流程。當(dāng)前還有研究者從路徑規(guī)劃的角度,利用優(yōu)化的aco算法完成了多輛車(chē)的任務(wù)分配。另外,還有將農(nóng)業(yè)多機(jī)器人任務(wù)分配轉(zhuǎn)化為多目標(biāo)mtsp,并使用nsga-ⅱ算法求解。或者基于nsga-iii和改進(jìn)的蟻群算法,提出了一種農(nóng)業(yè)多車(chē)協(xié)同指揮智能調(diào)度方法。然而,啟發(fā)式算法的性能往往依賴(lài)于對(duì)參數(shù)的精確調(diào)整以適應(yīng)當(dāng)前的場(chǎng)景條件,在應(yīng)用時(shí)通常需要多次迭代。
6、綜上,上述缺陷不僅導(dǎo)致了農(nóng)業(yè)多機(jī)器人調(diào)度與任務(wù)分配方法多考慮單一目標(biāo)函數(shù),且沒(méi)有深度結(jié)合農(nóng)業(yè)的自身需求;現(xiàn)有技術(shù)的方法在面向大數(shù)量級(jí)的運(yùn)行時(shí),時(shí)間過(guò)長(zhǎng)。
7、因此,迫切需要將農(nóng)業(yè)多機(jī)器人任務(wù)分配重新表述為一個(gè)nwc-mtsp問(wèn)題(工作量約束下的多旅行商問(wèn)題)。根據(jù)農(nóng)用車(chē)運(yùn)行的實(shí)際需求,設(shè)計(jì)并實(shí)現(xiàn)所需的路徑規(guī)劃算法,并根據(jù)路徑規(guī)劃結(jié)果建立任務(wù)分配目標(biāo)函數(shù)。并優(yōu)化模型,優(yōu)化后的模型在實(shí)際使用中的運(yùn)行時(shí)間可滿足實(shí)時(shí)應(yīng)用。
技術(shù)實(shí)現(xiàn)思路
1、為解決上述現(xiàn)有技術(shù)中的目標(biāo)單一、實(shí)用性差等難題,提出了一種基于強(qiáng)化學(xué)習(xí)的農(nóng)業(yè)多機(jī)器人調(diào)度與任務(wù)分配方法。
2、第一方面,本技術(shù)實(shí)施例提供了一種基于強(qiáng)化學(xué)習(xí)的農(nóng)業(yè)多機(jī)器人任務(wù)分配方法,方法包括:
3、針對(duì)待分配的多個(gè)農(nóng)田任務(wù)地塊,基于所述農(nóng)田任務(wù)的路徑規(guī)劃算法,計(jì)算所述農(nóng)田任務(wù)的路徑成本,并根據(jù)路徑規(guī)劃結(jié)果,以任務(wù)分配的工作量均衡及總路徑代價(jià)最小作為約束,建立農(nóng)用車(chē)集群的任務(wù)分配目標(biāo)函數(shù);
4、基于強(qiáng)化學(xué)習(xí)的注意力機(jī)制策略?xún)?yōu)化網(wǎng)絡(luò),確定節(jié)點(diǎn)和車(chē)輛間的分配概率,根據(jù)所述目標(biāo)函數(shù)制定獎(jiǎng)勵(lì)函數(shù),并使用策略梯度法完成任務(wù)分配模型訓(xùn)練,輸出所述農(nóng)用車(chē)集群的任務(wù)分配方案;
5、農(nóng)用車(chē)集群的每輛車(chē)按照給定的任務(wù)分配方案,在任務(wù)地塊上遍歷并執(zhí)行農(nóng)業(yè)操作。
6、本發(fā)明具體實(shí)施例中,上述基于農(nóng)田任務(wù)的路徑規(guī)劃算法,計(jì)算農(nóng)田任務(wù)的路徑成本,包括:
7、獲取地塊間轉(zhuǎn)移路徑成本,將農(nóng)田的地圖信息轉(zhuǎn)化為矢量數(shù)據(jù)格式的路網(wǎng)拓?fù)鋱D,進(jìn)行轉(zhuǎn)移路徑搜索,以農(nóng)用車(chē)集群起點(diǎn)作為起點(diǎn)任務(wù),采用算法搜索所有任務(wù)地塊的實(shí)際最短路徑,構(gòu)建最短路徑長(zhǎng)度矩陣;
8、獲取地塊內(nèi)工作路徑成本,采用全覆蓋路徑規(guī)劃算法,分別計(jì)算轉(zhuǎn)彎區(qū)和實(shí)際作業(yè)區(qū)路徑軌跡,并將二者求和計(jì)算地塊內(nèi)工作路徑成本;
9、根據(jù)地塊間轉(zhuǎn)移路徑成本與地塊內(nèi)工作路徑成本,計(jì)算每個(gè)任務(wù)分配的工作量wl。
10、本發(fā)明具體實(shí)施例中,上述基于強(qiáng)化學(xué)習(xí)的注意力機(jī)制策略?xún)?yōu)化網(wǎng)絡(luò),確定節(jié)點(diǎn)和車(chē)輛間的分配概率,包括:
11、定義圖注意力網(wǎng)絡(luò),根據(jù)任務(wù)分配方案需求,為每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)增加了工作量屬性wl,生成基于強(qiáng)化學(xué)習(xí)的注意力機(jī)制策略?xún)?yōu)化網(wǎng)絡(luò);
12、經(jīng)過(guò)策略?xún)?yōu)化網(wǎng)絡(luò)處理后,輸出節(jié)點(diǎn)特征矩陣fm和圖的全局特征表示gm;
13、基于節(jié)點(diǎn)特征矩陣fm和圖的全局特征表示gm,生成每輛農(nóng)用車(chē)嵌入embedding,進(jìn)行車(chē)輛和地塊任務(wù)節(jié)點(diǎn)的分配,計(jì)算農(nóng)用車(chē)選擇每個(gè)地塊節(jié)點(diǎn)的概率。
14、本發(fā)明具體實(shí)施例中,上述根據(jù)目標(biāo)函數(shù)制定帶有節(jié)點(diǎn)工作量約束的獎(jiǎng)勵(lì)函數(shù),并使用策略梯度法完成任務(wù)分配模型訓(xùn)練,包括:
15、基于策略?xún)?yōu)化網(wǎng)絡(luò)給出的選擇每個(gè)地塊節(jié)點(diǎn)的分配概率,進(jìn)行隨機(jī)動(dòng)作采樣;
16、基于動(dòng)作采樣結(jié)果構(gòu)建獎(jiǎng)勵(lì)函數(shù)r(θ,λ),并使用經(jīng)典旅行商問(wèn)題算法(lkh3)來(lái)完成子車(chē)輛轉(zhuǎn)移距離的最小化優(yōu)化,確定各節(jié)點(diǎn)之間的轉(zhuǎn)移順序,使用策略梯度算法計(jì)算參數(shù)θ,并訓(xùn)練得到最優(yōu)策略;其中,θ為訓(xùn)練的策略,λ拉格朗日松弛因子;
17、根據(jù)r(θ,λ)構(gòu)建損失函數(shù),損失函數(shù)是所有樣本的負(fù)對(duì)數(shù)概率與獎(jiǎng)勵(lì)的乘積的和。
18、本發(fā)明具體實(shí)施例中,上述基于節(jié)點(diǎn)特征矩陣fm和圖的全局特征表示gm,生成每輛農(nóng)用車(chē)embedding,包括:
19、利用多頭注意力機(jī)制,為每輛車(chē)生成embedding,通過(guò)線性變換輸入的節(jié)點(diǎn)特征矩陣fm和全局圖特征gm,獲得每個(gè)頭部的查詢(xún)向量q、鍵向量k和值向量v;
20、通過(guò)鍵向量k和查詢(xún)向量q的點(diǎn)積計(jì)算注意力分?jǐn)?shù),對(duì)每個(gè)頭部進(jìn)行加權(quán),得到每臺(tái)農(nóng)用車(chē)輛的embedding;
21、通過(guò)對(duì)累積加權(quán)的聚合值向量v和所有頭部的注意力值進(jìn)行拼接,得到每臺(tái)農(nóng)用車(chē)輛embedding的特征維度,形成最終的v_embedding,根據(jù)每個(gè)元素的重要性動(dòng)態(tài)調(diào)整合并權(quán)重值。
22、本發(fā)明具體實(shí)施例中,上述計(jì)算農(nóng)用車(chē)選擇每個(gè)地塊節(jié)點(diǎn)的概率,包括:
23、采用生成的節(jié)點(diǎn)特征fm和v_embedding,計(jì)算車(chē)輛選擇每個(gè)節(jié)點(diǎn)的概率;
24、線性層接收v_embedding,構(gòu)造更新的查詢(xún)向量q'和鍵向量k';
25、通過(guò)注意力機(jī)制計(jì)算注意力得分,通過(guò)縮放點(diǎn)積注意力機(jī)制調(diào)整注意力得分,并通過(guò)softmax函數(shù)將注意力得分轉(zhuǎn)換為每個(gè)地塊節(jié)點(diǎn)的概率分布。
26、第二方面,本技術(shù)實(shí)施例提供了一種基于強(qiáng)化學(xué)習(xí)的農(nóng)業(yè)多機(jī)器人任務(wù)分配系統(tǒng),采用如上述基于強(qiáng)化學(xué)習(xí)的農(nóng)業(yè)多機(jī)器人任務(wù)分配方法,系統(tǒng)包括:
27、目標(biāo)函數(shù)建立模塊:針對(duì)待分配的多個(gè)農(nóng)田任務(wù)地塊,基于所述農(nóng)田任務(wù)的路徑規(guī)劃算法,計(jì)算所述農(nóng)田任務(wù)的路徑成本,并根據(jù)路徑規(guī)劃結(jié)果,以任務(wù)分配的工作量均衡及總路徑代價(jià)最小作為約束,建立農(nóng)用車(chē)集群的任務(wù)分配目標(biāo)函數(shù);
28、任務(wù)分配方案輸出模塊:基于強(qiáng)化學(xué)習(xí)的注意力機(jī)制策略?xún)?yōu)化網(wǎng)絡(luò),確定節(jié)點(diǎn)和車(chē)輛間的分配概率,根據(jù)所述目標(biāo)函數(shù)制定獎(jiǎng)勵(lì)函數(shù),并使用策略梯度法完成任務(wù)分配模型訓(xùn)練,輸出所述農(nóng)用車(chē)集群的任務(wù)分配方案;
29、任務(wù)分配方案執(zhí)行模塊:用于農(nóng)用車(chē)集群的每輛車(chē)按照給定的任務(wù)分配方案,在任務(wù)地塊上遍歷并執(zhí)行農(nóng)業(yè)操作。
30、第三方面,本技術(shù)實(shí)施例提供了一種農(nóng)業(yè)多機(jī)器人任務(wù)分配系統(tǒng),系統(tǒng)包括:服務(wù)器、客戶端和農(nóng)用車(chē)集群;
31、服務(wù)器執(zhí)行程序時(shí)實(shí)現(xiàn)如上述的基于強(qiáng)化學(xué)習(xí)的農(nóng)業(yè)多機(jī)器人任務(wù)分配方法的步驟,并發(fā)出控制指令;
32、農(nóng)用車(chē)集群通信連接服務(wù)器,接收服務(wù)器發(fā)出的控制指令,完成如上述的基于強(qiáng)化學(xué)習(xí)的農(nóng)業(yè)多機(jī)器人任務(wù)分配方法的步驟;
33、客戶端通信連接服務(wù)器及農(nóng)用車(chē)集群,用于接收控制指令,并對(duì)農(nóng)用車(chē)集群進(jìn)行監(jiān)控和管理。
34、第四方面,本技術(shù)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述的基于強(qiáng)化學(xué)習(xí)的農(nóng)業(yè)多機(jī)器人任務(wù)分配方法的步驟。
35、第五方面,本技術(shù)實(shí)施例提供了一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)如所述的基于強(qiáng)化學(xué)習(xí)的農(nóng)業(yè)多機(jī)器人任務(wù)分配方法的步驟。
36、相比于相關(guān)現(xiàn)有技術(shù),具有以下突出的有益效果:
37、1)本發(fā)明方法提出根據(jù)農(nóng)業(yè)多機(jī)器人任務(wù)分配的實(shí)際需求,設(shè)立兩個(gè)目標(biāo)函數(shù);同時(shí)保證了在總的路徑最短和工作量均衡兩方面的農(nóng)業(yè)調(diào)度需求;
38、2)本發(fā)明方法提出優(yōu)化注意力機(jī)制策略網(wǎng)絡(luò),確定節(jié)點(diǎn)和車(chē)輛間的分配概率。根據(jù)目標(biāo)函數(shù)制定帶有節(jié)點(diǎn)工作量約束的獎(jiǎng)勵(lì)函數(shù),并使用策略梯度法完成模型訓(xùn)練。優(yōu)化后的模型在實(shí)際使用中的運(yùn)行時(shí)間可滿足實(shí)時(shí)應(yīng)用。