本申請公開了一種視頻數(shù)據(jù)處理方法、裝置、電子設備和計算機可讀介質(zhì)。該方法包括:基于預設的獎勵預測模型,對視頻數(shù)據(jù)中,執(zhí)行主體執(zhí)行目標任務時的任務環(huán)境進行特征提取,生成任務環(huán)境的分布激勵;基于預設的強化學習模型,根據(jù)任務環(huán)境,生成任務指令,根據(jù)任務指令指導執(zhí)行主體執(zhí)行目標任務,得到任務結(jié)果;基于預設的獎勵評估函數(shù),對任務結(jié)果進行評估,生成任務激勵,并根據(jù)任務激勵,對獎勵預測模型的參數(shù)進行調(diào)整;根據(jù)分布激勵,對強化學習模型的參數(shù)進行調(diào)整。籍此,通過強化學習模型生成的任務激勵對獎勵預測模型的參數(shù)進行調(diào)整,優(yōu)化獎勵預測模型;通過獎勵預測模型生成的分布激勵對強化學習模型的參數(shù)進行調(diào)整,優(yōu)化強化學習模型。
聲明:
“視頻數(shù)據(jù)處理方法、裝置、電子設備和計算機可讀介質(zhì)” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)