本發(fā)明公開(kāi)了一種基于深度強(qiáng)化學(xué)習(xí)的多無(wú)人機(jī)任務(wù)規(guī)劃方法。首先,根據(jù)任務(wù)需求,建立多無(wú)人機(jī)多目標(biāo)場(chǎng)景下的分布式部分馬爾科夫決策過(guò)程模型;然后,在建立的任務(wù)模型基礎(chǔ)上,設(shè)計(jì)基于QMIX的任務(wù)規(guī)劃算法。本發(fā)明設(shè)計(jì)了多智能體強(qiáng)化學(xué)習(xí)算法與協(xié)作任務(wù)獎(jiǎng)賞函數(shù),使得多無(wú)人機(jī)在集中訓(xùn)練后,執(zhí)行任務(wù)時(shí)可以在分布式框架下根據(jù)不同的環(huán)境狀態(tài)與自身觀測(cè)做出協(xié)作完成任務(wù)的動(dòng)作,使任務(wù)完成時(shí)間減少,最大化任務(wù)收益。
聲明:
“基于深度強(qiáng)化學(xué)習(xí)的多無(wú)人機(jī)任務(wù)規(guī)劃方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)