本發(fā)明公開(kāi)了一種基于深度強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛智能車軌跡跟蹤控制策略,針對(duì)智能車自動(dòng)駕駛?cè)蝿?wù),根據(jù)深度確定性策略梯度(DDPG)算法中的“動(dòng)作?評(píng)論家”結(jié)構(gòu),采用“雙動(dòng)作”網(wǎng)絡(luò)分別輸出方向盤轉(zhuǎn)角命令和車速命令,并設(shè)計(jì)“主評(píng)論家”網(wǎng)絡(luò)用以指導(dǎo)“雙動(dòng)作”網(wǎng)絡(luò)的更新過(guò)程,具體包括:將自動(dòng)駕駛?cè)蝿?wù)描述為馬爾可夫決策過(guò)程:<s
t,a
t,R
t,s
t+1>;采用行為克隆算法對(duì)改進(jìn)DDPG算法中的“雙動(dòng)作”網(wǎng)絡(luò)進(jìn)行初始化;對(duì)深度強(qiáng)化學(xué)習(xí)DDPG算法中的“評(píng)論家”網(wǎng)絡(luò)進(jìn)行預(yù)訓(xùn)練;設(shè)計(jì)包含多種駕駛場(chǎng)景的訓(xùn)練道路進(jìn)行強(qiáng)化學(xué)習(xí)在線訓(xùn)練;設(shè)置新的道路對(duì)訓(xùn)練好的深度強(qiáng)化學(xué)習(xí)(DRL)模型進(jìn)行測(cè)試。本發(fā)明通過(guò)模仿人學(xué)車過(guò)程設(shè)計(jì)控制策略,實(shí)現(xiàn)了智能車在簡(jiǎn)單道路環(huán)境下的自動(dòng)駕駛。
聲明:
“基于深度強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛智能車軌跡跟蹤控制策略” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)