本發(fā)明通過將強(qiáng)化學(xué)習(xí)中的動(dòng)作,通過詞向量嵌入的方式,轉(zhuǎn)化為具有內(nèi)在聯(lián)系的向量表示,以此作為預(yù)測(cè)器,并結(jié)合給定目標(biāo)的環(huán)境特征,計(jì)算其到達(dá)目標(biāo)狀態(tài)的規(guī)劃路徑,從而將稀疏環(huán)境獎(jiǎng)勵(lì)轉(zhuǎn)化為密集獎(jiǎng)勵(lì)的形式。同時(shí),通過采用規(guī)劃器和執(zhí)行器對(duì)抗訓(xùn)練的方式,一定程度上解決了局部最優(yōu)問題。
聲明:
“強(qiáng)化學(xué)習(xí)的目標(biāo)規(guī)劃方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)