本發(fā)明的公開了一種基于神經(jīng)元覆蓋率的深度強(qiáng)化學(xué)習(xí)魯棒訓(xùn)練方法和裝置,包括以下步驟:(1)搭建智能駕駛環(huán)境,從智能駕駛環(huán)境中采集狀態(tài)數(shù)據(jù)對深度強(qiáng)化學(xué)習(xí)模型訓(xùn)練,直到達(dá)到設(shè)定回報(bào)值為止;(2)利用訓(xùn)練好的深度強(qiáng)化學(xué)習(xí)模型在環(huán)境中運(yùn)行,提取多輪的狀態(tài)動作對;(3)構(gòu)建用于根據(jù)歷史狀態(tài)動作對序列預(yù)測未來時刻狀態(tài)動作對序列的預(yù)測器和用于對狀態(tài)動作對進(jìn)行質(zhì)量分類的分類器,并利用提取的狀態(tài)動作對訓(xùn)練預(yù)測器和分類器;(4)依據(jù)定義的對抗采樣策略,根據(jù)狀態(tài)動作對質(zhì)量采樣狀態(tài)動作對并進(jìn)行深度強(qiáng)化學(xué)習(xí)模型的再訓(xùn)練,以提高深度強(qiáng)化學(xué)習(xí)模型的魯棒性。
聲明:
“基于神經(jīng)元覆蓋率的深度強(qiáng)化學(xué)習(xí)魯棒訓(xùn)練方法和裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)