針對(duì)強(qiáng)化學(xué)習(xí)中Q?learning算法在復(fù)雜環(huán)境下難以進(jìn)行路徑規(guī)劃的問題,將深度卷積神經(jīng)網(wǎng)絡(luò)的特征提取能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合,提出了一種基于深度強(qiáng)化學(xué)習(xí)的改進(jìn)算法。該方法用值函數(shù)近似法代替Q?learning中的動(dòng)作值函數(shù),設(shè)計(jì)了包含4層結(jié)構(gòu)的深度卷積神經(jīng)網(wǎng)絡(luò),以網(wǎng)絡(luò)的輸出代替?zhèn)鹘y(tǒng)的Q值表,解決了Q?learning在狀態(tài)空間較大時(shí)產(chǎn)生的維數(shù)災(zāi)難問題。在柵格環(huán)境下進(jìn)行仿真實(shí)驗(yàn),結(jié)果表明該方法相較于Q?learning算法能夠在復(fù)雜的環(huán)境下進(jìn)行路徑規(guī)劃,并在新的測(cè)試集上取得了87%的識(shí)別率,具有較強(qiáng)的泛化能力。
聲明:
“基于深度強(qiáng)化學(xué)習(xí)的機(jī)器人路徑規(guī)劃方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)