本發(fā)明公開了基于并行優(yōu)勢動作評價的強化學習自適應PID控制方法,包括設置采樣周期,A2C算法的線程個數(shù)n,初始化網(wǎng)絡參數(shù);根據(jù)當前狀態(tài)誤差,利用狀態(tài)轉換器構造第i個智能體的輸入狀態(tài)向量;利用RBF網(wǎng)絡同時實現(xiàn)第i個智能體策略函數(shù)和值函數(shù)的學習,參數(shù)值修正后計算系統(tǒng)輸出,并觀測下一采樣時間系統(tǒng)誤差ei(t+1),計算獎勵函數(shù)ri(t);判斷是否更新參數(shù),數(shù)據(jù)總量達到batch size,停止采樣,輸出狀態(tài)估計值并更新權值,將n個智能體上傳的梯度匯總并求平均,更新Global Net參數(shù),Global Net傳遞給Actor(i)和Critic(i)新的權值;迭代重復,輸出算法的最優(yōu)解。通過本發(fā)明提供的方法,可以有效的克服大超調(diào),非線性和滯后性對PID控制器帶來的影響。
聲明:
“基于并行優(yōu)勢動作評價的強化學習自適應PID控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)