本說明書實施例提供一種基于強化學習模型預測樣本標簽的方法,所述方法包括:通過所述強化學習模型進行針對第一標定樣本的連續(xù)N次預測,獲取與N次預測分別對應的N個預測標簽,其中,從第二次預測開始的每次預測的預測標簽屬于上一次預測的預測標簽的預定子標簽集合,第一次預測的預測標簽屬于預定標簽集合,所述N為大于等于1的整數(shù);基于預先標定的所述第一標定樣本的標定標簽和所述第N次預測得到的預測標簽,確定與所述N次預測對應的獎勵分數(shù),所述預測標簽對應于第N次預測得到預測標簽標識;利用所述獎勵分數(shù)優(yōu)化所述強化學習模型,優(yōu)化后的強化學習模型用于預測第一預測樣本的樣本標簽。
聲明:
“基于強化學習模型預測樣本標簽的方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)