本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,其公開了一種基于深度強(qiáng)化學(xué)習(xí)的自適應(yīng)博弈算法,包括如下步驟:(A)獲取不同合作程度的策略;(B)生成不同合作程度的策略;(C)檢測對手的合作策略;(D)制定不同的應(yīng)對策略。本發(fā)明的有益效果是:利用訓(xùn)練出來的檢測器和不同合作程度的策略,將已有的Tit?for?tat等思想實(shí)現(xiàn)運(yùn)用在sequential?social?dilemmas中;提高了智能體agent的擴(kuò)展性;更加直觀的獲取更優(yōu)于自身的競爭策略。
聲明:
“基于深度強(qiáng)化學(xué)習(xí)的自適應(yīng)博弈算法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)