本發(fā)明提供一種基于強化學習的導彈制導方法和裝置,其中方法包括:基于雷達信號,獲取當前導彈和目標的位置、姿態(tài)信息,以及導彈當前剩余能量信息;基于當前導彈和目標的位置、姿態(tài)信息,以及導彈當前剩余能量信息,確定當前時刻的觀測向量,并基于當前時刻以及上一時刻的觀測向量,確定當前狀態(tài);將所述當前狀態(tài)輸入至動作網絡,得到所述動作網絡輸出的動作,并基于所述動作,確定所述導彈的控制量;其中,所述動作網絡是基于樣本觀測向量、每一時刻導彈采取的樣本動作及其對應的獎勵進行強化學習得到的。本發(fā)明提高了帶角度約束的導彈圍捕準確性。
聲明:
“基于強化學習的導彈制導方法和裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)