一種基于深度策略性梯度強化學習的在線軌跡生成制導方法,屬于軌跡生成技術(shù)領域。方法如下:建立無量綱化的動力學模型,并將過程約束轉(zhuǎn)化為傾側(cè)角約束;設計攻角剖面和傾側(cè)角剖面形式;設定強化學習要素;建立actor?critic架構(gòu)的智能體;提取智能體的online?actor網(wǎng)絡參數(shù)并進行固定。本發(fā)明能夠有效的在可重復使用運載器的滑翔段大擾動條件下生成再入軌跡;解決了傳統(tǒng)再入飛行器軌跡制導方法對強擾動條件適應性不足,難以滿足多個終端約束的問題。可通過對再入飛行攻角和傾側(cè)角剖面的周期性預測,滿足再入飛行終端高度、航程和速度約束。較傳統(tǒng)跟蹤制導方法有較大的精度提升,算法計算量小,具有較好的應用前景。
聲明:
“基于深度策略性梯度強化學習的在線軌跡生成制導方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)