本發(fā)明公開了一種面向擾動獎勵的深度強化學習對抗防御方法,該方法在深度強化學習算法PPO的基礎上構(gòu)建了一個名叫RecRe的獎勵復原模塊,該模塊能夠從擾動獎勵中復原得到干凈獎勵。隨后,強化學習智能體根據(jù)干凈獎勵學習得到具有防御能力的最優(yōu)策略。本發(fā)明的創(chuàng)新點在于將深度學習環(huán)境中的擾動獎勵看作是監(jiān)督學習中的噪聲標簽,借助噪聲標簽學習的思想,構(gòu)建了RecRe模塊從噪聲獎勵中復原獎勵,使得最終根據(jù)復原獎勵學習的策略具備對抗防御性。相比于先前的替代策略和預測策略,本發(fā)明所提出的結(jié)合RecRe模塊的PPO訓練框架學習得到的復原策略具有更好的防御效果。
聲明:
“面向擾動獎勵的深度強化學習對抗防御方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)