本發(fā)明公開了一種基于圖像隱變量概率模型的分布式強化學習社交導航方法。本發(fā)明通過引入圖像隱變量概率預測模型替代傳統(tǒng)的決定性預測模型,一方面增強模型的合理性,使得預測更逼近于存在隨機性的行人運動模型,另一方面通過增強模型的探索能力來進一步加強策略性能,避免過擬合。同時,本發(fā)明通過圖像序列解耦移動機器人自身運動來實現動態(tài)障礙物的判別,省去了存在不穩(wěn)定性的高層行人檢測模塊,可以實現效果良好的遷移。另外,本發(fā)明設計了策略共享的多智能體仿真環(huán)境來模擬行人動態(tài)環(huán)境,增強仿真與真實人群交互的相似程度。環(huán)境中多智能體同步進行數據采集,因此訓練時間可以得到進一步縮減。
聲明:
“基于圖像隱變量概率模型的分布式強化學習社交導航方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)