本申請公開了一種基于值函數(shù)可信度的多智能體強(qiáng)化學(xué)習(xí)方法及相關(guān)裝置,方法包括基于各智能體的觀測值確定各智能體的勢能函數(shù);基于各勢能函數(shù)確定局部值函數(shù)及候選全局值函數(shù);基于全局環(huán)境信息、局部值函數(shù)及候選全局值函數(shù)確定若干信譽(yù)值;基于各局部值函數(shù)、候選全局值函數(shù)及信譽(yù)值確定全局值函數(shù);基于全局值函數(shù)及各智能體的勢能函數(shù),利用集中訓(xùn)練分布機(jī)制訓(xùn)練多智能體。本申請通過確定若干局部值函數(shù)可以學(xué)習(xí)到各智能體的局部環(huán)境信息,再結(jié)合若干局部值函數(shù)形成全局值函數(shù)可以提高全局值函數(shù)的精準(zhǔn)性,提高多智能體強(qiáng)化學(xué)習(xí)的收斂速度。同時,在計算全局值函數(shù)時為各局部值函數(shù)配置信譽(yù)度,提高多智能體強(qiáng)化學(xué)習(xí)的學(xué)習(xí)效率以及魯棒性。
聲明:
“基于值函數(shù)可信度的多智能體強(qiáng)化學(xué)習(xí)方法及相關(guān)裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)