本發(fā)明公開了一種基于深度強化學習的分層決策方法,先初始化決策對象的戰(zhàn)術決策層智能體和意圖識別層智能體,意圖識別智能體采用深度循環(huán)Q網(wǎng)絡根據(jù)輸入的意圖識別觀測信息,生成意圖識別層行為,根據(jù)意圖識別層行為選擇戰(zhàn)術決策層智能體;戰(zhàn)術決策層智能體采用深度確定性策略梯度算法,根據(jù)戰(zhàn)術決策觀測信息計算戰(zhàn)術決策層智能體的行為。本發(fā)明戰(zhàn)術決策層和意圖識別層在訓練時是相互獨立的,在決策時是相互聯(lián)系的,避免了同時訓練難以收斂的問題,能夠加快訓練時的算法收斂速度,進而提升智能體整體決策能力。
聲明:
“基于深度強化學習的分層決策方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)