本發(fā)明涉及追捕技術(shù)分析技術(shù)領(lǐng)域,具體是涉及用于形成追捕策略的強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法和訓(xùn)練裝置。本發(fā)明逃跑者的控制量并不是確定性的,而是根據(jù)追捕者的信息給出的控制量,即逃跑者與追捕者進(jìn)行了交互,這與實(shí)際追捕過(guò)程中逃跑者會(huì)根據(jù)追捕者的信息而做出相應(yīng)的逃跑策略上的改變是一致的,追捕強(qiáng)化學(xué)習(xí)模型再根據(jù)改變之后的逃跑策略而給出追捕者的追捕策略。如此往復(fù)地對(duì)追捕強(qiáng)化學(xué)習(xí)模型進(jìn)行訓(xùn)練,這樣等到的已訓(xùn)練追捕強(qiáng)化學(xué)習(xí)模型應(yīng)用到實(shí)際追逃過(guò)程中,即便逃跑者針對(duì)追捕者改變了逃跑策略,追捕者依然能夠精準(zhǔn)地實(shí)現(xiàn)對(duì)逃跑者的追捕,從而增加了已訓(xùn)練的追捕強(qiáng)化學(xué)習(xí)模型的魯棒性。
聲明:
“用于形成追捕策略的強(qiáng)化學(xué)習(xí)模型訓(xùn)練方法和訓(xùn)練裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)