用于使用機器學(xué)習(xí)模型的方法、系統(tǒng)和裝置,包括編碼在計算機存儲介質(zhì)上的計算機程序,所述機器學(xué)習(xí)模型已經(jīng)通過強化學(xué)習(xí)被訓(xùn)練為選擇內(nèi)容項。其中一種所述方法包括:接收表征第一場境的第一數(shù)據(jù),在所述第一場境中,可以在呈現(xiàn)環(huán)境中將第一內(nèi)容項呈現(xiàn)給第一用戶;以及將所述第一數(shù)據(jù)作為輸入提供給長期參與機器學(xué)習(xí)模型,所述模型已經(jīng)通過強化學(xué)習(xí)被訓(xùn)練為:接收多個輸入,并且處理所述多個輸入中的每個輸入以生成每個輸入的相應(yīng)參與分值,所述相應(yīng)參與分值表示如果在所述相應(yīng)場境中呈現(xiàn)了所述相應(yīng)內(nèi)容項則在所述呈現(xiàn)環(huán)境中向所述相應(yīng)用戶呈現(xiàn)的未來內(nèi)容項的所述相應(yīng)用戶進(jìn)行的預(yù)測的、根據(jù)時間調(diào)節(jié)的總選擇數(shù)。
聲明:
“使用強化學(xué)習(xí)來選擇內(nèi)容項” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)