本發(fā)明提出一種基于強(qiáng)化學(xué)習(xí)的監(jiān)護(hù)預(yù)警方法及系統(tǒng),包括:根據(jù)實時輸入的時序監(jiān)護(hù)數(shù)據(jù),預(yù)測所述時序監(jiān)護(hù)數(shù)據(jù)與不良事件標(biāo)簽的關(guān)聯(lián)關(guān)系,創(chuàng)建決策環(huán)境;對所述智能體決策動作進(jìn)行建模;所述智能體根據(jù)當(dāng)前時刻輸入的時序監(jiān)護(hù)數(shù)據(jù)選擇決策動作;所述決策環(huán)境根據(jù)所述決策動作輸出響應(yīng)信息,其中,所述響應(yīng)信息包括環(huán)境狀態(tài)和決策動作的獎懲值;將所述環(huán)境狀態(tài)輸入預(yù)先構(gòu)建深度強(qiáng)化學(xué)習(xí)框架,獲取智能體所有可選決策動作中期望值最高的動作作為所述智能體下一次動作決策的輸出;根據(jù)前述步驟進(jìn)行智能體與決策環(huán)境交互直到滿足結(jié)束條件,輸出預(yù)測結(jié)果;本發(fā)明通過強(qiáng)化學(xué)習(xí),實時監(jiān)護(hù)目標(biāo)對象情況,提高問題處理的及時性。
聲明:
“基于強(qiáng)化學(xué)習(xí)的監(jiān)護(hù)預(yù)警方法及系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)