本發(fā)明公開一種機器人自主學習方法、裝置、設備及存儲介質(zhì),該方法包括:基于預先構(gòu)建的虛擬環(huán)境,獲取由虛擬環(huán)境自動生成的環(huán)境參數(shù);根據(jù)環(huán)境參數(shù),通過深度學習模型生成訓練數(shù)據(jù);根據(jù)訓練數(shù)據(jù),采用分層強化學習框架生成至少一個機器人技能;根據(jù)待執(zhí)行任務確定機器人的狀態(tài)空間,基于狀態(tài)空間,采用變分推理方法預測待執(zhí)行任務的潛在技能向量,潛在技能向量與至少一個機器人技能中的其中一個機器人技能具有一一對應的關系;根據(jù)機器人技能和潛在技能向量,采用強化學習算法獲得用于完成待執(zhí)行任務的機器人控制策略。本發(fā)明在面對不同類型的任務時,無需重復針對不同類型的任務對機器人進行技能訓練,提高了機器人進行自主學習的泛化性。
聲明:
“機器人自主學習方法、裝置、設備及存儲介質(zhì)” 該技術專利(論文)所有權(quán)利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)