一種飛行器雙延遲深度確定性策略梯度姿態(tài)控制方法,屬于飛行器控制技術(shù)領(lǐng)域。方法如下:建立飛行器動力學(xué)模型形成強化學(xué)習(xí)環(huán)境;初始化強化學(xué)習(xí)交互環(huán)境、智能體及最大步數(shù);獲得飛行器的控制量作為動作量;計算動作量對應(yīng)的獎勵函數(shù)值及下一個觀測量,組合形成經(jīng)驗數(shù)據(jù)記錄至經(jīng)驗回放區(qū);對智能體參數(shù)進行調(diào)整完成一輪強化學(xué)習(xí);輸出飛行器控制量燃料空氣混合比與升降舵偏角。本發(fā)明是一種高精度、自適應(yīng)的飛行器智能控制方法,通過雙延遲深度確定性策略梯度方法進行強化學(xué)習(xí),實現(xiàn)弱依賴于模型的最優(yōu)姿態(tài)控制器設(shè)計,僅需要飛行器的基本模型,模型中各參數(shù)量不需完全精確給出,從而減弱了控制系統(tǒng)設(shè)計對于模型的依賴程度。
聲明:
“飛行器雙延遲深度確定性策略梯度姿態(tài)控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)