本發(fā)明公開了一種基于注意力機(jī)制的多智能體深度強(qiáng)化學(xué)習(xí)策略優(yōu)化方法,所述方法包括如下步驟:搭建多智能體強(qiáng)化學(xué)習(xí)協(xié)作模擬場景,并利用深度確定性策略梯度算法訓(xùn)練多智能體;個(gè)性生成器利用概率分類器對智能體觀察到的圖片的概率分布進(jìn)行預(yù)測,對概率分布器進(jìn)行訓(xùn)練,使得概率分布器區(qū)分智能體更加準(zhǔn)確,從而使得智能體的個(gè)性逐漸顯現(xiàn);獲取每個(gè)時(shí)間步智能體觀察到的圖片的特征信息并正則化獎(jiǎng)勵(lì)折扣因子,將得到的獎(jiǎng)勵(lì)折扣因子更新至個(gè)性生成器中的獎(jiǎng)勵(lì)函數(shù)得到新設(shè)置的獎(jiǎng)勵(lì)函數(shù);將新設(shè)置的獎(jiǎng)勵(lì)函數(shù)更新至深度確定性策略梯度算法的多智能體強(qiáng)化學(xué)習(xí)框架中對多智能體進(jìn)行訓(xùn)練,直至多智能體達(dá)到收斂。
聲明:
“基于注意力機(jī)制的多智能體深度強(qiáng)化學(xué)習(xí)策略優(yōu)化方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)