本發(fā)明公開了一種基于多智能體深度強化學習的TCP擁塞控制方法及裝置。所述方法包括:在傳輸控制協(xié)議TCP中,通過設置連續(xù)的統(tǒng)計區(qū)間,將多流競爭瓶頸鏈路的擁塞控制問題建模為馬爾可夫博弈過程,并利用深度強化學習,用神經(jīng)網(wǎng)絡表示表示TCP的擁塞控制策略,在一個模擬環(huán)境中訓練出最優(yōu)的擁塞控制策略,從根本上解決傳統(tǒng)啟發(fā)式擁塞控制算法在動態(tài)多變的網(wǎng)絡環(huán)境中的適應性問題及公平性問題。本發(fā)明方法使用在線變點檢測技術劃分統(tǒng)計區(qū)間,采用Actor?Critic深度強化學習框架,對多個智能體并行聯(lián)合訓練,直接對TCP擁塞控制進行建模和學習,從而生成一個最優(yōu)的擁塞控制策略。
聲明:
“基于多智能體深度強化學習的TCP擁塞控制方法及裝置” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)