本發(fā)明公開了一種多代理強化學習合作任務場景下的代理間交換知識的方法,包括:每個代理獨立觀測環(huán)境,使用神經網絡將環(huán)境進行編碼,提取相關的特征向量;所述代理將各自的特征向量交由中心站(使用循環(huán)神經網絡實現)進行整合,所述中心站為各代理生成新的知識編碼并進行分發(fā);所述代理接收到新的知識,整合舊有的環(huán)境特征向量,然后輸入神經網絡策略進行決策;上述所有神經網絡的參數學習是端到端進行的。該方法能夠對多個代理所觀測的知識進行整合,幫助多代理系統(tǒng)在合作任務上學習到更好的策略。其中,代理的數目不受限制。
聲明:
“多代理強化學習合作任務場景下的代理間交換知識的方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)