本申請涉及一種移動機(jī)器人導(dǎo)航方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)。所述方法包括:通過特征提取模塊對目標(biāo)點(diǎn)圖像和場景圖像提取特征得到當(dāng)前狀態(tài)的狀態(tài)特征;通過逆強(qiáng)化學(xué)習(xí)模塊解算預(yù)先給定的專家軌跡,得到獎勵函數(shù);通過A3C強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)中的策略網(wǎng)絡(luò)輸出機(jī)器人的預(yù)測執(zhí)行動作,通過值網(wǎng)絡(luò)得到預(yù)測值函數(shù),在執(zhí)行動作得到下一狀態(tài)后,根據(jù)當(dāng)前狀態(tài)、下一狀態(tài)和執(zhí)行動作計(jì)算TD誤差,得到第一損失函數(shù);根據(jù)狀態(tài)特征和權(quán)值參數(shù),得到專家獎勵值,根據(jù)網(wǎng)絡(luò)獎勵值和專家獎勵值得到第二損失函數(shù);對A3C強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)和獎勵網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到訓(xùn)練好的移動機(jī)器人導(dǎo)航模型用于導(dǎo)航。本發(fā)明可提高機(jī)器人室內(nèi)導(dǎo)航的準(zhǔn)確率和效率,泛化能力強(qiáng)。
聲明:
“移動機(jī)器人導(dǎo)航方法、裝置、計(jì)算機(jī)設(shè)備和存儲介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)