本發(fā)明屬于網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,特別涉及一種基于強化學(xué)習(xí)和攻防博弈的智能防御決策方法及裝置,該方法包含:在有限理性約束下構(gòu)建攻防博弈模型,并生成用于提取博弈模型中網(wǎng)絡(luò)狀態(tài)與攻防動作的攻防圖,該攻防圖設(shè)定為以主機為中心,攻防圖節(jié)點提取網(wǎng)絡(luò)狀態(tài),攻防圖邊分析攻防動作;防御者在網(wǎng)絡(luò)狀態(tài)轉(zhuǎn)移概率未知時,通過在線學(xué)習(xí)得到防御收益使得防御者面對不同攻擊者時自動做出最優(yōu)防御策略的選擇。本發(fā)明有效壓縮博弈狀態(tài)空間,降低了存儲和運行開銷;防御者在與攻擊者對抗中依據(jù)環(huán)境反饋進行強化學(xué)習(xí),在面對不同攻擊時能自適應(yīng)做出最優(yōu)選擇;提升防御者學(xué)習(xí)速度,提高了防御收益,減少對歷史數(shù)據(jù)依賴,有效提升防御者決策時的實時性和智能性。
聲明:
“基于強化學(xué)習(xí)和攻防博弈的智能防御決策方法及裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)