本發(fā)明公開一種基于深度強(qiáng)化學(xué)習(xí)的自動駕駛車輛超車決策方法。該方法包括:基于演員評論家架構(gòu)構(gòu)建強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò),該強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)包含策略網(wǎng)絡(luò)、價值網(wǎng)絡(luò)和Q值網(wǎng)絡(luò),其中策略網(wǎng)絡(luò)通過對駕駛環(huán)境的觀測產(chǎn)生連續(xù)的駕駛動作;車輛將所述策略網(wǎng)絡(luò)產(chǎn)生的連續(xù)駕駛動作應(yīng)用于駕駛決策任務(wù)中,并通過與駕駛環(huán)境的交互,以實現(xiàn)無碰撞、連續(xù)高速超車為目標(biāo),在獎勵函數(shù)指導(dǎo)下進(jìn)行自動駕駛,其中所述駕駛決策任務(wù)包括第一子任務(wù)和第二子任務(wù),第一子任務(wù)是在單車場景中實現(xiàn)自動駕駛車輛高速的駕駛,第二子任務(wù)是在多車環(huán)境中實現(xiàn)超車任務(wù),第二子任務(wù)的初始策略是第一子任務(wù)得到的最優(yōu)策略。利用本發(fā)明能夠?qū)崿F(xiàn)無碰撞的、連續(xù)高速超車任務(wù)。
聲明:
“基于深度強(qiáng)化學(xué)習(xí)的自動駕駛車輛超車決策方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)