本發(fā)明公開了一種推薦模型的訓(xùn)練方法和裝置,涉及計算機(jī)技術(shù)領(lǐng)域。該方法的一具體實施方式包括:根據(jù)獲取的用戶行為數(shù)據(jù)生成訓(xùn)練數(shù)據(jù)集;將訓(xùn)練數(shù)據(jù)集輸入至待訓(xùn)練模型中以得到第一預(yù)測結(jié)果;根據(jù)第一預(yù)測結(jié)果生成中間預(yù)測數(shù)據(jù),并將中間預(yù)測數(shù)據(jù)輸入至待訓(xùn)練模型中以得到第二預(yù)測結(jié)果;根據(jù)第一預(yù)測結(jié)果和第二預(yù)測結(jié)果計算反饋函數(shù),并根據(jù)反饋函數(shù)更新待訓(xùn)練模型以進(jìn)行模型訓(xùn)練。該實施方式基于強(qiáng)化學(xué)習(xí)的思想,將模型的預(yù)測結(jié)果引入模型訓(xùn)練中,使得預(yù)測結(jié)果的誤差大大的減小,可以幫助模型加快收斂,減少模型迭代的次數(shù),加快訓(xùn)練效率,解決了僅有短期會話數(shù)據(jù)時無法很好地進(jìn)行推薦的技術(shù)問題。
聲明:
“推薦模型的訓(xùn)練方法和裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)