本申請涉及一種基于數(shù)據(jù)增強的逐像素Q值估計離線強化學習方法和裝置。所述方法包括:通過從離線數(shù)據(jù)集中采樣小批量的原始輸入觀測,通過常見的圖像變換算法對小批量的原始輸入觀測進行數(shù)據(jù)增強,并對輸入觀測的Q值進行正則化處理,最終訓練得到用于決策的Q值網(wǎng)絡。本發(fā)明通過使用標準增量方法擴大訓練數(shù)據(jù)集,通過正則化輸入觀測的Q值避免高估離線數(shù)據(jù)集數(shù)據(jù)分布附近的數(shù)據(jù),并顯著提升了算法泛化性;將數(shù)據(jù)增強與基于像素觀測的離線RL算法結合起來的方法,不需要對底層RL算法進行額外修改,使得該方法易于實現(xiàn),并可擴展應用到其他基于Q值估計的離線RL算法,可擴展性強,實用性佳。
聲明:
“基于數(shù)據(jù)增強的逐像素Q值估計離線強化學習方法和裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)