本發(fā)明公開了一種基于視覺?語義特征的視頻中行為識別方法,其首先利用三維卷積神經(jīng)網(wǎng)絡(luò)提取短期時空視覺特征,避免了使用光流或密集軌跡法帶來的高計算復(fù)雜度;然后利用基于卷積神經(jīng)網(wǎng)絡(luò)的物體檢測器提取人和物體的語義和空間位置信息,構(gòu)造人?物體空間位置特征并與時空視覺特征進行特征融合,利用額外的語義信息提高視頻中交互行為的識別準確率;最后,在提取的具有通用性的短期時空視覺特征的基礎(chǔ)上,通過循環(huán)神經(jīng)網(wǎng)絡(luò)提取特異性的長期行為特征提高行為識別準確率。本發(fā)明能夠解決現(xiàn)有針對視頻的行為識別方法中存在的計算復(fù)雜度高、行為識別準確率低、以及無法提取貫穿整個視頻時間維度的長期行為特征的技術(shù)問題。
聲明:
“一種基于視覺-語義特征的視頻中行為識別方法和系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)