本發(fā)明公開(kāi)了一種基于值分解的多智能體強(qiáng)化學(xué)習(xí)方法及系統(tǒng),方法包括:獲取環(huán)境當(dāng)前t時(shí)刻的狀態(tài)St,每個(gè)智能體初始的觀察值可獲得的動(dòng)作以及該動(dòng)作對(duì)應(yīng)的獎(jiǎng)勵(lì)r;對(duì)于每個(gè)智能體,通過(guò)評(píng)估?智能體網(wǎng)絡(luò)計(jì)算每個(gè)動(dòng)作基于局部信息τi觀察到的值函數(shù)Qi(τi);利用隨機(jī)?智能體網(wǎng)絡(luò)得到每個(gè)智能體基于全局信息τ的獎(jiǎng)勵(lì)值函數(shù)Qi(τ);利用目標(biāo)?智能體網(wǎng)絡(luò)計(jì)算損失函數(shù)并更新參數(shù);利用競(jìng)爭(zhēng)?智能體網(wǎng)絡(luò)將每個(gè)智能體基于全局信息τ的獎(jiǎng)勵(lì)值函數(shù)Qi(τ)進(jìn)行分解;將分解結(jié)果相加得到基于全局信息τ的聯(lián)合獎(jiǎng)勵(lì)值函數(shù)Qtot(τ,a),完成訓(xùn)練。本發(fā)明對(duì)多智能體之間的邏輯拓?fù)潢P(guān)系進(jìn)行了雙重提取,在復(fù)雜的異構(gòu)部分可觀測(cè)場(chǎng)景中,提高智能體的學(xué)習(xí)效率和應(yīng)變能力。
聲明:
“基于值分解的多智能體強(qiáng)化學(xué)習(xí)方法及系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)