本申請(qǐng)涉及一種基于強(qiáng)化學(xué)習(xí)的無(wú)超調(diào)PID控制器參數(shù)整定方法。本申請(qǐng)通過(guò)構(gòu)造學(xué)習(xí)智能體,觀測(cè)當(dāng)前狀態(tài)數(shù)據(jù)輸入到動(dòng)作神經(jīng)網(wǎng)絡(luò)得到動(dòng)作參數(shù),之后再觀測(cè)下一狀態(tài)的數(shù)據(jù)以及獎(jiǎng)勵(lì)。當(dāng)前狀態(tài),動(dòng)作,轉(zhuǎn)移后狀態(tài),獎(jiǎng)勵(lì)值,四個(gè)元素組成了狀態(tài)轉(zhuǎn)移元組,每一次被控對(duì)象執(zhí)行動(dòng)作時(shí)都會(huì)進(jìn)行一次狀態(tài)轉(zhuǎn)移,并將狀態(tài)轉(zhuǎn)移元組存入經(jīng)驗(yàn)池內(nèi)。智能體抽取一定量的狀態(tài)轉(zhuǎn)移元組,用于訓(xùn)練動(dòng)作網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)。重復(fù)訓(xùn)練動(dòng)作網(wǎng)絡(luò)和評(píng)價(jià)網(wǎng)絡(luò)直到參數(shù)收斂,保存參數(shù)權(quán)重。最終智能體根據(jù)當(dāng)前狀態(tài)數(shù)據(jù)輸出最優(yōu)PID參數(shù)提供給PID控制器,使得被控對(duì)象的狀態(tài)值在無(wú)超調(diào)的基礎(chǔ)上以較快的速度達(dá)到設(shè)定值,進(jìn)而實(shí)現(xiàn)對(duì)控制器PID參數(shù)無(wú)超調(diào)整定的方面改進(jìn)。
聲明:
“基于強(qiáng)化學(xué)習(xí)的無(wú)超調(diào)PID控制器參數(shù)整定方法” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)