本發(fā)明公開了一種基于動態(tài)層級通信網(wǎng)絡的多智能體強化學習方法及系統(tǒng),方法包括:S100,編碼當前時刻觀測信息和歷史信息,獲得當前時刻觀測特征和依賴特征,并進行預決策;S200,基于注意力機制,根據(jù)預決策信息與觀測特征,獲取依賴矩陣;S300,基于最小生成樹算法,動態(tài)生成層級關系網(wǎng)絡并進行選擇性有向地通信,生成聯(lián)合決策并與環(huán)境交互,收集經(jīng)驗數(shù)據(jù);S400,基于線性值分解網(wǎng)絡,為每個智能體分配狀態(tài)?動作值函數(shù),更新智能體策略網(wǎng)絡;S500,基于內在獎勵機制,根據(jù)演員?評論家框架更新層級網(wǎng)絡參數(shù)。在該方法中,多智能體利用動態(tài)生成的層級通信網(wǎng)絡進行選擇性的觀測信息和意圖信息共享,基于條件狀態(tài)?動作值分解網(wǎng)絡和內在通信獎勵,減少環(huán)境的非穩(wěn)態(tài)問題,并對聯(lián)合策略及層級通信協(xié)議進行高效的學習和更新。
聲明:
“基于動態(tài)層級通信網(wǎng)絡的多智能體強化學習方法及系統(tǒng)” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)