本發(fā)明提供一種基于視覺和語義特征協(xié)作與強(qiáng)化學(xué)習(xí)的視頻摘要方法,包括將視頻文件分解成幀序列,按照幀的時(shí)間順序依次使用深度神經(jīng)網(wǎng)絡(luò)提取語義特征和視覺顯著性特征;經(jīng)過Bi?LSTM模型處理預(yù)測(cè)出各視頻幀被選擇為關(guān)鍵幀的初始概率;根據(jù)視覺顯著性特征提取出空間注意力得分,歸一化后利用調(diào)整因子對(duì)Bi?LSTM模型產(chǎn)生的初始概率進(jìn)行調(diào)制得到調(diào)制概率;根據(jù)調(diào)制概率,確定語義特征與視覺顯著性特征均重要的關(guān)鍵幀,實(shí)現(xiàn)VSFB模型;將原始視頻分為多個(gè)獨(dú)立片段clip,計(jì)算選擇的關(guān)鍵幀與其他幀之間索引調(diào)整的差異性獎(jiǎng)勵(lì)和代表性獎(jiǎng)勵(lì),依據(jù)強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)機(jī)制,動(dòng)態(tài)調(diào)整初始概率,加強(qiáng)VSFB模型在視頻摘要中的學(xué)習(xí),最后得到理想模型,實(shí)現(xiàn)從任意待處理視頻中的摘要提取。
聲明:
“基于視覺和語義特征協(xié)作與強(qiáng)化學(xué)習(xí)的視頻摘要方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)