本發(fā)明公開了一種基于記憶網(wǎng)絡的深度強化學習交通信號控制方法,包括:1、建立基于DQN算法的交通信號燈控制主網(wǎng)絡和目標值網(wǎng)絡;主網(wǎng)絡將t時刻狀態(tài)值st輸入LSTM中得到t+1時刻預測狀態(tài)值合并st和并輸入全連接網(wǎng)絡,得到預測Q值的最大值和對應動作2、初始化算法參數(shù),采集路況信息建立狀態(tài)值st;3、將st輸入主網(wǎng)絡得到預測Q值取最大值的動作采用1?ε策略選擇動作at;4、執(zhí)行動作at并計算獎勵rt和狀態(tài)st+1;5、在經(jīng)驗池中隨機抽樣B個記錄,通過最小化損失函數(shù)訓練主網(wǎng)絡參數(shù);6、定時更新目標值網(wǎng)絡參數(shù),根據(jù)當前路況更新st,跳轉(zhuǎn)至步驟3繼續(xù)執(zhí)行。該方法根據(jù)當前路況以及對當前路況的預測來計算Q值,能夠更精確地對交通信號進行控制。
聲明:
“基于記憶網(wǎng)絡的深度強化學習交通信號控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)