本發(fā)明屬于多媒體圖像視頻場(chǎng)景文字識(shí)別領(lǐng)域,具體涉及了一種基于無(wú)錨框和提議框的場(chǎng)景文字檢測(cè)方法,旨在解決現(xiàn)有技術(shù)難以覆蓋變換多樣的文字且參數(shù)復(fù)雜,從而檢測(cè)效率低和泛化能力差的問(wèn)題。本發(fā)明包括:構(gòu)建模型并提取場(chǎng)景文字待檢測(cè)區(qū)域的高層卷積特征和低層卷積特征;通過(guò)升采樣和串聯(lián)進(jìn)行高層卷積特征和低層卷積特征的融合,獲得卷積融合特征;使用無(wú)損失文字注意力機(jī)制將高層卷積特征攜帶的高層語(yǔ)義信息嵌入,獲得LTAM卷積融合特征;通過(guò)三個(gè)分支進(jìn)行檢測(cè)輸出,并去除冗余矩形框,獲得最終的檢測(cè)結(jié)果。本發(fā)明無(wú)需預(yù)設(shè)錨框和提議框,簡(jiǎn)單靈活、檢測(cè)性能優(yōu),檢測(cè)速度顯著超過(guò)多數(shù)方法。
聲明:
“基于無(wú)錨框和提議框的場(chǎng)景文字檢測(cè)方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)