本發(fā)明涉及一種基于動態(tài)目標(biāo)分配的深度強化學(xué)習(xí)隊形變換方法及系統(tǒng),方法包括:確定狀態(tài)空間、動作空間以及獎勵函數(shù);初始化網(wǎng)絡(luò)參數(shù)、經(jīng)驗池和訓(xùn)練環(huán)境;判斷訓(xùn)練回合數(shù)是否達到最大;各飛行器以某一初始編隊隊形出發(fā);計算各飛行器最優(yōu)分配目標(biāo)點探測器探測周圍己方飛行器,根據(jù)障礙錐判斷飛行器是否需要避障或避碰;計算飛行器需要避障的航向角度,各飛行器選擇動作,并進入下一狀態(tài);計算獎勵值;將此時系統(tǒng)狀態(tài)、動作、獎勵值和下一系統(tǒng)狀態(tài)作為一組元組數(shù)據(jù)存入經(jīng)驗池;更新網(wǎng)絡(luò)參數(shù);判斷rs是否為C2+C3,訓(xùn)練結(jié)束,復(fù)雜障礙環(huán)境中隊形變換完成。本發(fā)明中的上述方法解決了隊形變換過程中由于目標(biāo)分配隨機易產(chǎn)生局部最優(yōu)航路問題。
聲明:
“基于動態(tài)目標(biāo)分配的深度強化學(xué)習(xí)隊形變換方法及系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)