本發(fā)明涉及一種多智能體強化學習訓練方法及系統(tǒng),其方法包括:局部策略訓練階段,智能體局部策略利用自身的局部觀測信息做出動作;全局策略訓練階段,智能體的全局策略利用局部策略作為與環(huán)境交互的動作模塊,全局策略以環(huán)境全局狀態(tài)作為輸入,給出對全局信息在隱空間中進行編碼,同時利用全部智能體的局部觀測信息使用神經(jīng)網(wǎng)絡對全局狀態(tài)進行擬合;局部策略結(jié)合各自的局部觀測信息以及全局策略的輸出在環(huán)境中做出符合環(huán)境要求的合適動作;局部策略優(yōu)化階段,利用前兩個階段得到的全局策略與局部策略以及擬合模型,在現(xiàn)有的局部策略的基礎上進行優(yōu)化,最終得到效果更好的智能體。本發(fā)明能提升多智能體強化學習訓練的速度和準確性。
聲明:
“多智能體強化學習訓練方法及系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)