一種基于強化學習的多時間尺度系統最優(yōu)跟蹤控制方法,涉及一種工業(yè)過程設計控制方法,本發(fā)明應用奇異攝動理論和強化學習技術在有限時域內解決具有耦合子系統的多時間尺度大系統的最優(yōu)跟蹤控制問題;本發(fā)明一個突出貢獻是開發(fā)一種基于數據驅動的強化學習方法,用于多時間尺度未知大系統最優(yōu)跟蹤控制;為此,首先利用奇異攝動理論將多時間尺度跟蹤問題分解為慢子系統的線性二次型跟蹤問題和快子系統的動態(tài)博弈問題;然后,在此基礎上,提出了一種僅利用系統實時測量數據分布式非策略積分強化學習算法來尋找分布式復合反饋控制器;因此,運行指標可通過一種近似最優(yōu)的方法來跟蹤其規(guī)定的目標值,實現多時間尺度系統以最優(yōu)的方式達到跟蹤控制效果。
聲明:
“基于強化學習的多時間尺度系統最優(yōu)跟蹤控制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)