本發(fā)明屬于人工智能技術(shù)領(lǐng)域,具體的說是涉及一種基于深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)自主智能管控方法。本發(fā)明首先構(gòu)建網(wǎng)絡(luò)拓?fù)洌缓笠隒NN、LSTM層和延遲更新策略構(gòu)建基于DDPG強(qiáng)化學(xué)習(xí)算法的路由決策模型,最后對(duì)基于深度強(qiáng)化學(xué)習(xí)的路由決策模型進(jìn)行迭代訓(xùn)練。在每次迭代訓(xùn)練中,智能體根據(jù)測(cè)量得到的網(wǎng)絡(luò)狀態(tài)和神經(jīng)網(wǎng)絡(luò)獲得輸出的動(dòng)作,即一組鏈路權(quán)重,并根據(jù)鏈路權(quán)重使用最短路徑算法計(jì)算業(yè)務(wù)的路由。根據(jù)路由計(jì)算結(jié)果,智能體下發(fā)流表,并獲取業(yè)務(wù)的端到端時(shí)延和丟包率計(jì)算此次迭代的獎(jiǎng)勵(lì)值。算法具有良好的收斂性,能夠有效降低業(yè)務(wù)的端到端時(shí)延和丟包率。
聲明:
“基于深度強(qiáng)化學(xué)習(xí)的網(wǎng)絡(luò)自主智能管控方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)