本發(fā)明為基于強化學(xué)習(xí)和模仿學(xué)習(xí)的智能補貨決策方法及存儲介質(zhì),包括MDP設(shè)計模塊,模仿學(xué)習(xí)建模模塊以及智能決策模塊;模仿學(xué)習(xí)建模模塊包括行為克隆模塊以及對抗式模仿學(xué)習(xí)模塊;智能決策模塊包括基礎(chǔ)策略以及探索策略。本發(fā)明結(jié)合行為克隆和對抗式模仿學(xué)習(xí)兩種方式,通過行為克隆應(yīng)對簡單業(yè)務(wù)場景,使智能體的補貨決策能力達到專家平均水平,通過對抗式模仿學(xué)習(xí)構(gòu)建對抗獎勵函數(shù)應(yīng)對復(fù)雜業(yè)務(wù)場景,超越專家決策水平。本發(fā)明有效解決現(xiàn)有補貨系統(tǒng)對輸入數(shù)據(jù)依賴度較高,模型穩(wěn)定性低、泛化能力弱的問題,并避免了黑盒預(yù)測,擁有更好的商業(yè)落地能力以及業(yè)務(wù)拓展能力。
聲明:
“基于強化學(xué)習(xí)和模仿學(xué)習(xí)的智能補貨決策方法及存儲介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)