本發(fā)明公開(kāi)了一種基于對(duì)抗架構(gòu)的強(qiáng)化學(xué)習(xí)方法,本發(fā)明相比傳統(tǒng)的離散強(qiáng)化學(xué)習(xí)算法,我們的方法引入對(duì)抗架構(gòu)和目標(biāo)神經(jīng)網(wǎng)絡(luò)。對(duì)抗架構(gòu)使得算法無(wú)須直接對(duì)動(dòng)作價(jià)值函數(shù)Q進(jìn)行預(yù)測(cè),而是可以將該價(jià)值函數(shù)分解為狀態(tài)價(jià)值函數(shù)V(s)和優(yōu)勢(shì)函數(shù)A(s,a)之和。這種架構(gòu)可以增強(qiáng)價(jià)值函數(shù)預(yù)測(cè)的準(zhǔn)確性,并且對(duì)于動(dòng)作選擇造成的價(jià)值函數(shù)變化更加敏感,可以加速算法的收斂。而使用目標(biāo)網(wǎng)絡(luò)作為目標(biāo)價(jià)值函數(shù)的評(píng)估網(wǎng)絡(luò),有效降低了對(duì)于動(dòng)作價(jià)值函數(shù)預(yù)測(cè)過(guò)的估計(jì)風(fēng)險(xiǎn),使得價(jià)值函數(shù)的預(yù)測(cè)更加準(zhǔn)確,提升了算法的魯棒性。
聲明:
“基于對(duì)抗架構(gòu)的強(qiáng)化學(xué)習(xí)方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)