背景技術(shù):
0、(二)背景技術(shù)
1、無人機集群于長期城市服務(wù)領(lǐng)域的應(yīng)用正呈現(xiàn)出日益增長的態(tài)勢,涵蓋地理危險監(jiān)測、數(shù)據(jù)收集以及醫(yī)療供應(yīng)交付等方面。在地理分布式環(huán)境中保障其持續(xù)運行時,任務(wù)規(guī)劃工作務(wù)必將無人機部署與任務(wù)分配置于優(yōu)先考量地位,以此達成系統(tǒng)間的高效協(xié)作以及任務(wù)的連貫性。盡管多無人機部署與任務(wù)分配的集成方案能夠?qū)μ幱诓煌臻g位置的地面用戶實施有效管理,然而無人機在運行過程中不可避免地會遭遇一些不可預(yù)見狀況,致使動態(tài)需求超出預(yù)先設(shè)定的規(guī)劃范疇。這便要求不僅要重新規(guī)劃按需調(diào)度策略,同時也需要無人機具備實時決策能力,進而確保針對因任務(wù)請求變化而產(chǎn)生的緊急情況予以有效響應(yīng)。這些挑戰(zhàn)凸顯出定制化框架構(gòu)建的必要性,并需輔以先進的方法來統(tǒng)籌協(xié)調(diào)并化解相互耦合的子問題。
2、然而,現(xiàn)階段無人機集群任務(wù)重規(guī)劃決策方法存在多個缺項。具體表現(xiàn)在:缺少能夠解決分布式環(huán)境中無人機集群長期任務(wù)執(zhí)行的任務(wù)重分配方法;無法針對潛在變化的長期任務(wù)實現(xiàn)魯棒性、自適應(yīng)性并收斂至全局最優(yōu)結(jié)果;缺少應(yīng)對擴展?fàn)顟B(tài)空間中的稀疏獎勵和任務(wù)復(fù)雜性增加以助力決策者有效探索和提高學(xué)習(xí)效率的有效策略。為此,本發(fā)明擬針對以上缺項,提出了一個面向重新規(guī)劃的框架,以實現(xiàn)在動態(tài)環(huán)境下對無人機集群的高效實時決策。
技術(shù)實現(xiàn)思路
0、(三)
技術(shù)實現(xiàn)要素:
1、本發(fā)明的目的在于提供一種面向?qū)崟r決策的無人機集群任務(wù)重規(guī)劃雙層框架,綜合考慮預(yù)定義任務(wù)位置與動態(tài)需求等多方面因素,通過為每個層的子問題開發(fā)改進的算法達成對這些關(guān)鍵要素的有效處理與目標(biāo)實現(xiàn)。為實現(xiàn)上述目的,本發(fā)明提供以下框架:
2、s100:建立無人機集群任務(wù)執(zhí)行的問題場景與分層優(yōu)化問題模型;
3、s101:抽象集群分散任務(wù)執(zhí)行場景;
4、s102:建立基于動態(tài)子組劃分的無人機集群部署問題優(yōu)化模型;
5、s103:以子組為單位,建立面向任務(wù)重分配的無人機任務(wù)重分配問題優(yōu)化模型;
6、s200:基于模擬退火增強的k-medoids聚類算法計算最優(yōu)任務(wù)分組與無人機編隊部署;
7、s201:初始化所有任務(wù)分組以及所有無人機的編隊部署;
8、s202:使用k-medoids算法對任務(wù)進行分組,得到若干任務(wù)子組;
9、s203:將無人機分配部署至特定的任務(wù)子組并組成編隊;
10、s204:若不滿足退火條件或最大退火輪次,則返回步驟s201;
11、s300:基于目標(biāo)導(dǎo)向信念空間多智能體強化學(xué)習(xí)算法實時計算任務(wù)重分配結(jié)果;
12、s301:對于每個任務(wù)子組和相應(yīng)的無人機編隊,初始化智能體環(huán)境、動作-價值函數(shù)和目標(biāo)函數(shù);
13、s302:利用以信念為導(dǎo)向的事后經(jīng)驗回放機制,通過強化學(xué)習(xí)訓(xùn)練多智能體;
14、s303:基于訓(xùn)練完成的多智能體進行無人機編隊內(nèi)的實時任務(wù)重分配。
15、步驟s100中,建立無人機集群任務(wù)執(zhí)行的問題場景與分層優(yōu)化問題模型,具體過程如下。
16、建立任務(wù)執(zhí)行場景的數(shù)學(xué)模型,并將無人機集群任務(wù)執(zhí)行問題建立為雙層的優(yōu)化問題模型,上層建立全局最優(yōu)任務(wù)分組及無人機部署的優(yōu)化問題模型,下層針對各組任務(wù)和對應(yīng)無人機編隊建立任務(wù)重分配實時決策問題模型。
17、其中,步驟s101,抽象集群分散任務(wù)執(zhí)行場景,考慮任務(wù)包括訪問有限的m個靜態(tài)任務(wù),任務(wù)集合記為γ={τ1,ω2,…,τm}。執(zhí)行任務(wù)的無人機集群包含總共n架無人機,無人機集群集合記為v={v1,v2,…,vn}。對于每一個無人機vi,i=1,2,…,n,考慮將其建模為一個五元組<li,si,θi,ci,fi>,其中l(wèi)i=(xi,yi,zi),si>0,θi∈(0,π),fi>0,分別表示無人機的位置坐標(biāo)、恒定飛行速度、觀測角度、能力等級、最大飛行距離。
18、其中,步驟s102,建立基于動態(tài)子組劃分的無人機集群部署問題優(yōu)化模型。將任務(wù)集合分為k組,表示為{a1,a2,…,ak}。以最大化剩余能力均衡brc作為優(yōu)化目標(biāo),將無人機集群也劃分為k組,記為v={v0,v1,v2,…,vk},表示分別部署至各任務(wù)動態(tài)子組的無人機編隊,并以無人機集群編隊部署方案作為該優(yōu)化問題的決策變量。
19、其中,步驟s103,以子組為單位,建立面向任務(wù)重分配的無人機任務(wù)重分配問題優(yōu)化模型。可以將每個無人機編隊內(nèi)部的任務(wù)重分配問題,建立成一個分散的部分可觀察的馬爾可夫決策過程,記為每無人機編隊內(nèi)部的無人機被抽象為智能體,記為其中nk表示第k個編隊的無人機的數(shù)量。γ是獎勵的折扣因子,其他的元素定義如下:
20、狀態(tài)空間:在t時刻的環(huán)境狀態(tài)定義為st∈s,其中包含每一個無人機的狀態(tài)<li,si,θi,ci,fi>,和任務(wù)的狀態(tài)。
21、動作空間:每一個無人機vi在t時刻的動作被定義為其中前四個元素分別表示無人機選擇向東、西、南、北飛行,最后一個元素表示原地不動。
22、觀測空間:由于每個無人機的觀測范圍和通信限制,每個智能體在t時刻做決策時所依賴的觀測信息僅包括任務(wù)位置與任務(wù)需求。
23、狀態(tài)轉(zhuǎn)移概率:轉(zhuǎn)移概率p滿足p(st+1|st,at):st×at×st+1→[0,1],表示在st狀態(tài)選擇at轉(zhuǎn)移至狀態(tài)st+1的概率。
24、獎勵函數(shù):對于在st狀態(tài)下選擇動作,將會得到獎勵
25、信念空間:bt∈b表示t時刻出現(xiàn)新的任務(wù)請求的概率,其計算方式如下:
26、
27、其中p的計算方式如下:
28、
29、目標(biāo)空間:包含最終目標(biāo)和中間目標(biāo)的空間記為g,表示信念水平的上升。g是一個映射函數(shù),滿足g:(bt,st)→g。
30、步驟s200中,基于模擬退火增強的k-medoids聚類算法計算最優(yōu)任務(wù)分組與無人機編隊部署,具體過程如下。
31、外循環(huán)使用模擬退火算法,在每個模擬退火的內(nèi)部進行如下步驟,初始化所有任務(wù)分組以及所有無人機的編隊部署后,使用k-medoids算法對任務(wù)進行分組,得到若干任務(wù)子組,而后將無人機分配部署至特定的任務(wù)子組并組成編隊,滿足模擬退火的條件后,則完成框架中上層的無人機部署。
32、其中,步驟s201,從任務(wù)集中隨機采樣初始化簇的第一個歐幾里得質(zhì)心μ1,然后基于與已知質(zhì)心的距離迭代選擇其他k-1個質(zhì)心,距離所有目標(biāo)與已知質(zhì)心距離更近的點更易被選為質(zhì)心。同時,將所有無人機編隊和任務(wù)子組初始化為空集。
33、其中,步驟s202,使用k-medoids算法對任務(wù)進行分組,得到若干任務(wù)子組。具體過程如下。
34、step1:計算每一個任務(wù)τj到所有質(zhì)心的歐幾里得距離djk=||τj-μk||2;
35、step2:找到所有任務(wù)子組中最小距離r=argminkdjk,將任務(wù)τj加入到距離最小的任務(wù)子組中;
36、step3:計算任務(wù)子組k的密度dk,若其大于閾值,則拒絕該聚類決策,選擇第二近的任務(wù)子組并重新測試閾值;否則更新任務(wù)子組k的歐幾里得質(zhì)心μk。
37、其中,步驟s203,將無人機分配部署至特定的任務(wù)子組并組成編隊,具體的過程如下。
38、step?1:隨機部署無人機集群中的無人機至k個任務(wù)子組中;
39、step?2:對于每一個無人機vt,計算一次全局的剩余能力均衡brcnew;
40、step?3:對于上述選擇的無人機vt,依次選擇所有的子組ck,將vt依次轉(zhuǎn)移至任務(wù)子組ck;
41、step?4:分別計算此時的剩余能力均衡brcnow以及變化δbrc=brcnow-brcnew;
42、step?5:如果δbrc>0,或者則接受step?3的轉(zhuǎn)移;否則拒絕step?3的轉(zhuǎn)移操作。
43、其中,步驟s204,如果滿足模擬退火輪次大于閾值ni則退出循環(huán),得到最后的任務(wù)分組和無人機集群部署,否則回到步驟s201進行新一輪的迭代優(yōu)化。
44、步驟s300中,基于目標(biāo)導(dǎo)向信念空間多智能體強化學(xué)習(xí)算法實時計算任務(wù)重分配結(jié)果,具體算法過程如下。
45、其中,步驟s301,對于每個任務(wù)子組和相應(yīng)的無人機編隊,初始化智能體環(huán)境、動作-價值函數(shù)和目標(biāo)函數(shù),具體步驟如下。
46、step?1:定義多智能體所處的任務(wù)環(huán)境,包括任務(wù)區(qū)域、用戶需求分布、無人機性能參數(shù)等信息,為智能體提供感知和決策的基礎(chǔ)環(huán)境;
47、step?2:為每個智能體初始化動作-價值函數(shù)qπ(bt,st,at)=e[ut|bt,st,at],其中該函數(shù)用于評估智能體在不同信念狀態(tài)bt、環(huán)境狀態(tài)st下采取動作at的預(yù)期累積折扣獎勵,初始化時賦予其合理的初始值范圍,以便在后續(xù)學(xué)習(xí)中逐步優(yōu)化;
48、step?3:確定多智能體協(xié)作任務(wù)的目標(biāo)函數(shù);
49、其中,步驟s302,利用以信念為導(dǎo)向的事后經(jīng)驗回放機制,通過強化學(xué)習(xí)訓(xùn)練多智能體,具體步驟如下。
50、step?1:進行信念導(dǎo)向的經(jīng)驗存儲,在每個時間步t,智能體根據(jù)當(dāng)前策略和觀察信息選擇動作at后,將經(jīng)驗trt={bt,st,at,rt,bt+1,st+1}存儲在數(shù)據(jù)集tr={tr1,tr2,…,trm}中。其中,信念狀態(tài)bt反映了時間步t動態(tài)任務(wù)請求存在的概率,環(huán)境狀態(tài)包含了如地面用戶位置、任務(wù)需求等信息,獎勵根據(jù)獎勵函數(shù)計算得出。
51、step2:經(jīng)驗采樣與更新,從數(shù)據(jù)集中隨機采樣經(jīng)驗trt,并根據(jù)目標(biāo)函數(shù)g(從信念狀態(tài)bt和環(huán)境狀態(tài)st到目標(biāo)空間g的映射函數(shù)g:(bt,st)→g生成新的經(jīng)驗其中在無人機向正確方向移動時大于rt。然后,使用這些新經(jīng)驗更新智能體的動作-價值函數(shù)和信念狀態(tài)。
52、step3:多智能體深度q學(xué)習(xí)更新,基于采樣的經(jīng)驗,采用時間差分訓(xùn)練方法,通過梯度下降算法更新動作-價值函數(shù)的參數(shù)θ,以最小化預(yù)測值與目標(biāo)值之間的差異,使智能體學(xué)習(xí)到更優(yōu)的策略。同時,在多智能體環(huán)境中,考慮智能體之間的交互和協(xié)作,引入價值分解網(wǎng)絡(luò)。假設(shè)智能體完全合作,即共享相同獎勵函數(shù),通過分解公式滿足將全局價值分解為局部價值,緩解學(xué)習(xí)過程中的不穩(wěn)定性,確保局部最優(yōu)組合為全局最優(yōu)。
53、其中,步驟s303,基于訓(xùn)練完成的多智能體進行無人機編隊內(nèi)的實時任務(wù)重分配。當(dāng)多智能體完成訓(xùn)練后,在實際運行中,每個智能體根據(jù)當(dāng)前環(huán)境狀態(tài)st和自身的信念狀態(tài)bt,基于學(xué)習(xí)到的策略π選擇動作at,實現(xiàn)無人機編隊內(nèi)的實時任務(wù)重分配。例如,智能體根據(jù)任務(wù)優(yōu)先級、無人機位置和負載情況等因素,決定無人機的飛行路徑、任務(wù)執(zhí)行順序和資源分配,以高效完成任務(wù)并適應(yīng)動態(tài)任務(wù)需求的變化。在面對突發(fā)任務(wù)請求或環(huán)境變化時,智能體能夠快速調(diào)整決策,確保任務(wù)的連續(xù)性和系統(tǒng)的穩(wěn)定性。
54、與現(xiàn)有技術(shù)相比本發(fā)明具有以下有益效果:提出了一種面向?qū)崟r決策的無人機集群動態(tài)任務(wù)重規(guī)劃框架,能夠建立模型描述雙層的任務(wù)重規(guī)劃問題,并在上層提出了sadck-medoid算法用于任務(wù)分組和無人機部署,有效應(yīng)對長期應(yīng)用里需求、環(huán)境等潛在變動,提升部署適應(yīng)性與穩(wěn)定性,優(yōu)于現(xiàn)存缺乏動態(tài)調(diào)整與冗余平衡的算法;在下層提出了gobs-marl算法用于任務(wù)重分配,大幅提高訓(xùn)練效率,加快收斂至優(yōu)策,解決多無人機任務(wù)分配難題,超越現(xiàn)有受稀疏獎勵和復(fù)雜環(huán)境制約的方法。該框架可有效指導(dǎo)無人機集群高效完成分層分布式任務(wù)重規(guī)劃。