本發(fā)明公開了一種基于隨機(jī)微分方程的連續(xù)性強(qiáng)化學(xué)習(xí)模型構(gòu)造系統(tǒng)及方法,包括動作微分構(gòu)造模塊、環(huán)境狀態(tài)微分構(gòu)造模塊、基礎(chǔ)模型存在性檢驗?zāi)K、基礎(chǔ)模型構(gòu)造模塊、值估計器構(gòu)造模塊、環(huán)境狀態(tài)估計器構(gòu)造模塊和動作策略生成器構(gòu)造模塊;值估計器構(gòu)造模塊包含值估計器優(yōu)化函數(shù)構(gòu)造模塊、Q函數(shù)更新模塊和未來獎勵估計模塊;環(huán)境狀態(tài)估計器構(gòu)造模塊包含環(huán)境狀態(tài)估計器優(yōu)化函數(shù)構(gòu)造模塊、環(huán)境狀態(tài)估計器優(yōu)化器附加目標(biāo)函數(shù)構(gòu)造模塊、未來環(huán)境狀態(tài)預(yù)測模塊和環(huán)境狀態(tài)參數(shù)計算模塊。應(yīng)用本發(fā)明所構(gòu)造得到的強(qiáng)化學(xué)習(xí)模型,能夠?qū)崿F(xiàn)對動作增量的計算,保證動作的連續(xù)性,并能夠適用于連續(xù)物理系統(tǒng)的實際控制。
聲明:
“基于隨機(jī)微分方程的連續(xù)性強(qiáng)化學(xué)習(xí)模型構(gòu)造系統(tǒng)及方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)