本發(fā)明公開一種基于最大熵強化學(xué)習(xí)框架的無人駕駛車道保持方法,包括:(1)創(chuàng)建無人車仿真道路環(huán)境;設(shè)置環(huán)境車行駛策略和行人的運動模型,設(shè)計獎勵函數(shù)以及碰撞檢測條件;(2)利用深度神經(jīng)網(wǎng)絡(luò)近似狀態(tài)值函數(shù)、動作值函數(shù)以及策略,并初始化網(wǎng)絡(luò)參數(shù);(3)獲得無人車初始狀態(tài),使其與環(huán)境交互,收集數(shù)據(jù),并存儲到緩沖池;(4)對狀態(tài)值函數(shù)網(wǎng)絡(luò)、動作值函數(shù)網(wǎng)絡(luò)以及策略網(wǎng)絡(luò)進(jìn)行更新;(5)對目標(biāo)值函數(shù)網(wǎng)絡(luò)進(jìn)行更新,直到策略網(wǎng)絡(luò)將近收斂;(6)將狀態(tài)值網(wǎng)絡(luò)優(yōu)化目標(biāo)中熵項系數(shù)置零,繼續(xù)訓(xùn)練直到策略網(wǎng)絡(luò)完全收斂;(7)對于訓(xùn)練好的策略模型,根據(jù)網(wǎng)絡(luò)輸出的動作概率分布,選擇概率值最大的動作給無人車執(zhí)行。
聲明:
“基于最大熵強化學(xué)習(xí)框架的無人駕駛車道保持方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)