本申請(qǐng)涉及四足機(jī)器人控制,特別涉及一種四足機(jī)器人進(jìn)行動(dòng)態(tài)物體操作的方法和裝置。
背景技術(shù):
1、在四足機(jī)器人動(dòng)態(tài)物體操作任務(wù)中,基于強(qiáng)化學(xué)習(xí)的運(yùn)動(dòng)控制方法近年來取得顯著進(jìn)展。相關(guān)技術(shù)主要通過兩種方式實(shí)現(xiàn)前肢物體操作,即通過前肢足端軌跡跟蹤完成靜態(tài)物體操作和采用端到端深度強(qiáng)化學(xué)習(xí)訓(xùn)練前肢足端完成動(dòng)態(tài)物體操作任務(wù);這些方式主要采用于單層策略網(wǎng)絡(luò)架構(gòu)是在平坦地形上對(duì)靜態(tài)物體進(jìn)行操作。
2、在分層強(qiáng)化學(xué)習(xí)架構(gòu)方面,現(xiàn)有方法主要包括任務(wù)無關(guān)底層控制器與任務(wù)相關(guān)上層規(guī)劃器的組合架構(gòu)、以及基于殘差學(xué)習(xí)的多技能集成架構(gòu)。然而這些方法多針對(duì)單一任務(wù)場景設(shè)計(jì),并采用固定的技能切換邏輯,難以有效解決動(dòng)態(tài)物體操作與復(fù)雜地形穿越的協(xié)同控制問題,因而限制了四足機(jī)器人在復(fù)雜環(huán)境下的應(yīng)用潛力。因此,亟需一種能夠兼顧動(dòng)態(tài)物體操作與地形適應(yīng)性的協(xié)同控制方法。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問題,本申請(qǐng)實(shí)施例提供了一種四足機(jī)器人進(jìn)行動(dòng)態(tài)物體操作的方法和裝置,以便克服上述問題或者至少部分地解決上述問題。
2、本申請(qǐng)實(shí)施例的第一方面,公開了一種四足機(jī)器人進(jìn)行動(dòng)態(tài)物體操作的方法,所述方法包括:
3、獲取機(jī)器人本體感知數(shù)據(jù)、目標(biāo)物體位置和用戶指令,所述用戶指令表征指定的目標(biāo)物體速度;
4、通過高層策略網(wǎng)絡(luò)根據(jù)所述機(jī)器人本體感知數(shù)據(jù)、所述目標(biāo)物體位置和所述用戶指令,生成技能索引和低層控制命令;其中,所述技能索引用于指示選擇的目標(biāo)低層技能,低層技能包括用于操作目標(biāo)物體按照第一幅度運(yùn)動(dòng)的第一技能和按照第二幅度移動(dòng)的第二技能,以及用于控制機(jī)器人在平坦地形上移動(dòng)的第三技能和在復(fù)雜地形上移動(dòng)的第四技能;所述低層控制命令表征所述目標(biāo)低層技能的控制命令;
5、通過低層技能網(wǎng)絡(luò)根據(jù)所述技能索引和所述低層控制命令,生成機(jī)器人的目標(biāo)關(guān)節(jié)位置;
6、根據(jù)所述目標(biāo)關(guān)節(jié)位置控制機(jī)器人在目標(biāo)地形上對(duì)所述目標(biāo)物體進(jìn)行操作。
7、本申請(qǐng)實(shí)施例的第二方面,公開了一種四足機(jī)器人進(jìn)行動(dòng)態(tài)物體操作的裝置,所述裝置包括:
8、第一獲取模塊,用于獲取機(jī)器人本體感知數(shù)據(jù)、目標(biāo)物體位置和用戶指令,所述用戶指令表征指定的目標(biāo)物體速度;
9、第一生成模塊,用于通過高層策略網(wǎng)絡(luò)根據(jù)所述機(jī)器人本體感知數(shù)據(jù)、所述目標(biāo)物體位置和所述用戶指令,生成技能索引和低層控制命令;其中,所述技能索引用于指示選擇的目標(biāo)低層技能,低層技能包括用于操作目標(biāo)物體按照第一幅度運(yùn)動(dòng)的第一技能和按照第二幅度移動(dòng)的第二技能,以及用于控制機(jī)器人在平坦地形上移動(dòng)的第三技能和在復(fù)雜地形上移動(dòng)的第四技能;所述低層控制命令表征所述目標(biāo)低層技能的控制命令;
10、第二生成模塊,用于通過低層技能網(wǎng)絡(luò)根據(jù)所述技能索引和所述低層控制命令,生成機(jī)器人的目標(biāo)關(guān)節(jié)位置;
11、第一操作模塊,用于根據(jù)所述目標(biāo)關(guān)節(jié)位置控制機(jī)器人在目標(biāo)地形上對(duì)所述目標(biāo)物體進(jìn)行操作。
12、本申請(qǐng)實(shí)施例的第三方面,公開了一種電子設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)本申請(qǐng)實(shí)施例第一方面所述的四足機(jī)器人進(jìn)行動(dòng)態(tài)物體操作的方法的步驟。
13、本申請(qǐng)實(shí)施例的第四方面,公開了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本申請(qǐng)實(shí)施例第一方面所述的四足機(jī)器人進(jìn)行動(dòng)態(tài)物體操作的方法的步驟。
14、本申請(qǐng)實(shí)施例的第五方面,公開了一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序,該計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)本申請(qǐng)實(shí)施例第一方面所述的四足機(jī)器人進(jìn)行動(dòng)態(tài)物體操作的方法的步驟。
15、本申請(qǐng)實(shí)施例包括以下優(yōu)點(diǎn):
16、在本申請(qǐng)實(shí)施例中,采用包括高層策略網(wǎng)絡(luò)和低層技能網(wǎng)絡(luò)的分層架構(gòu),通過高層策略網(wǎng)絡(luò)根據(jù)獲取的機(jī)器人本體感知數(shù)據(jù)、目標(biāo)物體位置和用戶指令,生成技能索引和低層控制命令,其中,技能索引用于指示選擇的目標(biāo)低層技能,低層控制命令表征所述目標(biāo)低層技能的控制命令;由于低層技能包括用于操作目標(biāo)物體按照第一幅度運(yùn)動(dòng)的第一技能和按照第二幅度移動(dòng)的第二技能,以及用于控制機(jī)器人在平坦地形上移動(dòng)的第三技能和在復(fù)雜地形上移動(dòng)的第四技能,因而通過高層策略網(wǎng)絡(luò)可以根據(jù)實(shí)時(shí)地形特征和目標(biāo)物體狀態(tài)進(jìn)行動(dòng)態(tài)策略調(diào)整,選擇出合適的控制策略。進(jìn)而通過低層技能網(wǎng)絡(luò)根據(jù)技能索引和低層控制命令,生成機(jī)器人的目標(biāo)關(guān)節(jié)位置,并根據(jù)目標(biāo)關(guān)節(jié)位置控制機(jī)器人在目標(biāo)地形上對(duì)目標(biāo)物體進(jìn)行操作,以基于動(dòng)態(tài)調(diào)整的控制策略,實(shí)現(xiàn)對(duì)機(jī)器人移動(dòng)和目標(biāo)物體操作的靈活控制。因此通過該方法可以在復(fù)雜地形下的動(dòng)態(tài)物體操作。
1.一種四足機(jī)器人進(jìn)行動(dòng)態(tài)物體操作的方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述高層策略網(wǎng)絡(luò)包括:上下文輔助估計(jì)網(wǎng)絡(luò)和高層動(dòng)作網(wǎng)絡(luò);通過高層策略網(wǎng)絡(luò)根據(jù)所述機(jī)器人本體感知數(shù)據(jù)、所述目標(biāo)物體位置和所述用戶指令,生成技能索引和低層控制命令,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述高層動(dòng)作網(wǎng)絡(luò)包括共享特征提取器、技能選擇器和命令生成器;通過所述高層動(dòng)作網(wǎng)絡(luò)根據(jù)所述上下文信息、所述機(jī)器人本體感知數(shù)據(jù)、所述目標(biāo)物體位置和所述用戶指令進(jìn)行低層動(dòng)作生成,得到所述技能索引和所述低層控制命令,包括:
4.根據(jù)權(quán)利要求1-3任一所述的方法,其特征在于,所述高層策略網(wǎng)絡(luò)是按照以下步驟進(jìn)行強(qiáng)化學(xué)習(xí)得到的:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)所述動(dòng)作確定當(dāng)前技能聚焦權(quán)重值,并根據(jù)所述當(dāng)前技能聚焦權(quán)重值確定重要性比值,包括:
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)所述重要性比值確定代理損失值,包括:
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,確定當(dāng)前訓(xùn)練所需的當(dāng)前地形難度和當(dāng)前用戶指令,包括:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述方法還包括:
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,根據(jù)所述第一獎(jiǎng)勵(lì)值對(duì)用戶指令服從的分布進(jìn)行更新,以及,根據(jù)所述第二獎(jiǎng)勵(lì)值對(duì)地形難易服從的分布進(jìn)行更新,包括:
10.一種四足機(jī)器人進(jìn)行動(dòng)態(tài)物體操作的裝置,其特征在于,所述裝置包括: