本發(fā)明公開了一種新的強化學(xué)習(xí)遷移方法,即基于動作模式的遷移,利用已有的模型加速解決新的未知任務(wù)。該遷移方法可用于不同狀態(tài)空間任務(wù)間的遷移,即用簡單狀態(tài)任務(wù)的知識,幫助解決復(fù)雜狀態(tài)的任務(wù)。本發(fā)明定義了動作模式,并提出動作序列預(yù)測模型從源任務(wù)中提取該知識。對動作模式如何遷移到目標任務(wù)上,提出了兩種方法:基于內(nèi)在獎賞機制的遷移和啟發(fā)式探索策略的遷移。
聲明:
“基于動作模式的強化學(xué)習(xí)遷移方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)