本發(fā)明提供了一種基于強化學習的網(wǎng)絡(luò)輿情裝置的調(diào)度方法,包括:S1:建立一個深度強化學習模型;S2:調(diào)度一個網(wǎng)絡(luò)輿情裝置執(zhí)行目標操作行為并記錄所述操作行為;S3:在進行所述S2的調(diào)度前先根據(jù)所述S1中的深度強化學習模型對所述網(wǎng)絡(luò)輿情裝置的狀態(tài)進行判斷,然后所述網(wǎng)絡(luò)輿情裝置執(zhí)行操作;S4:保存所述S3執(zhí)行完成時的所述網(wǎng)絡(luò)輿情裝置的狀態(tài)記錄并以此計算出獎勵分數(shù);S5:根據(jù)所述S4中得到的所述獎勵分數(shù)計算損失值以更新所述深度強化學習模型的參數(shù);S6:根據(jù)所述S5中更新后的所述深度強化學習模型進行網(wǎng)絡(luò)輿情預(yù)測。
聲明:
“基于強化學習的網(wǎng)絡(luò)輿情裝置的調(diào)度方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)