本申請涉及數(shù)據(jù)分析技術(shù)領(lǐng)域,尤其涉及一種基于強化學習的信息處理的方法、裝置、設(shè)備和存儲介質(zhì),包括:獲取原始數(shù)據(jù)并對原始數(shù)據(jù)進行預處理,得到樣本數(shù)據(jù);獲取目標值,提取樣本數(shù)據(jù)中的實際值,將目標值與實際值入?yún)⒌筋A設(shè)的獎懲函數(shù)中進行計算,得到實際值的評分權(quán)重;獲取樣本數(shù)據(jù)對應的多個備選方案數(shù)據(jù),將各備選方案數(shù)據(jù)和實際值的評分權(quán)重導入到用于強化學習模型中進行評分后,得到各備選方案數(shù)據(jù)的初始評分;根據(jù)預設(shè)的加分策略對初始評分進行處理后得到備選方案數(shù)據(jù)的最終評分;根據(jù)預設(shè)的業(yè)務(wù)邏輯對各備選方案數(shù)據(jù)進行過濾,以過濾后的備選方案數(shù)據(jù)中最終評分最高項作為原始數(shù)據(jù)的目標方案數(shù)據(jù)。提升了信息處理的速度和準確性。
聲明:
“基于強化學習的信息處理方法、裝置、設(shè)備和存儲介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)