本發(fā)明公開了一種基于強化學習算法SAC的目標跟蹤方法、裝置及存儲介質,方法包括:獲取視頻數(shù)據(jù);在視頻數(shù)據(jù)的當前幀中確定搜索區(qū)域位置和大小;判斷當前幀是否為第一幀;響應于當前幀非第一幀,將當前幀輸入預訓練好的actor網絡模型進行特征提取,得到輸出的預測框,根據(jù)所述預測框對目標進行跟蹤;其中所述actor網絡模型的訓練方法,包括:通過第一幀對actor、target_actor網絡進行初始化,根據(jù)經驗池中存儲的數(shù)據(jù),通過actor、critic網絡計算動作,計算actor、critic1、critic2網絡損失,利用強化學習SAC算法更新網絡權值。將目標跟蹤問題轉化為強化學習算法中在線決策的問題,并且本發(fā)明只需要少量數(shù)據(jù)集,充分利用現(xiàn)有技術,提升訓練速度。
聲明:
“基于強化學習算法SAC的目標跟蹤方法、裝置及存儲介質” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)