本發(fā)明公布了一種基于隨機(jī)微分方程的連續(xù)性強(qiáng)化學(xué)習(xí)系統(tǒng)及方法,系統(tǒng)包括動(dòng)作策略生成器APG、環(huán)境狀態(tài)估計(jì)器ESE、值估計(jì)器VE,記憶存儲(chǔ)模塊MS和外部環(huán)境EE;具體步驟如下:初始化動(dòng)作策略生成器APG、環(huán)境狀態(tài)估計(jì)器ESE和值估計(jì)器VE;動(dòng)作策略生成器APG計(jì)算輸出動(dòng)作值增量Δa
k;外部環(huán)境EE輸出下一步動(dòng)作值a
k+1、下一步環(huán)境狀態(tài)值s
k+1以及當(dāng)前步獎(jiǎng)勵(lì)值R
k,并存儲(chǔ)至記憶存儲(chǔ)模塊MS中;環(huán)境狀態(tài)估計(jì)器ESE更新環(huán)境狀態(tài)參數(shù)集θ
p和預(yù)測(cè)未來環(huán)境狀態(tài)估計(jì)值s′
k;VE優(yōu)化器更新Q函數(shù)網(wǎng)絡(luò)并預(yù)測(cè)未來獎(jiǎng)勵(lì)估計(jì)值R′
k;APG優(yōu)化器更新動(dòng)作值參數(shù)集θ
v。本方法基于隨機(jī)微分方程作為基礎(chǔ)模型,能實(shí)現(xiàn)動(dòng)作控制的連續(xù)性且能控制訓(xùn)練過程方差,能夠通過預(yù)測(cè)環(huán)境的變化來選擇動(dòng)作以實(shí)現(xiàn)更好的環(huán)境交互。
聲明:
“基于隨機(jī)微分方程的連續(xù)性強(qiáng)化學(xué)習(xí)系統(tǒng)及方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)