本發(fā)明涉及一種基于DPPO的虛實融合柵格舵模型參數(shù)優(yōu)化方法,屬于航天器設(shè)計參數(shù)優(yōu)化技術(shù)領(lǐng)域。本發(fā)明使用BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練的代理模型替代柵格舵系統(tǒng)物理仿真模型,可以快速地生成數(shù)據(jù)、完成預(yù)測,使用Adams物理仿真模型預(yù)測20000組數(shù)據(jù)需要耗時越20小時,使用代理模型僅需1.6秒。使用DPPO深度強化學(xué)習(xí)對柵格舵系統(tǒng)參數(shù)進行優(yōu)化,在計算梯度時通過更新前后地參數(shù)對比,限制更新步長,解決了基于行為地強化學(xué)習(xí)的步長敏感問題,使得訓(xùn)練更易收斂。同時,使用分布式的方式,用多組線程與環(huán)境交互,產(chǎn)生訓(xùn)練數(shù)據(jù),在提升數(shù)據(jù)收集速度的同時,降低了網(wǎng)絡(luò)間的相關(guān)性,使得訓(xùn)練更容易收斂,更易實現(xiàn)對柵格舵系統(tǒng)的參數(shù)優(yōu)化。
聲明:
“基于DPPO的虛實融合柵格舵模型參數(shù)優(yōu)化方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)