本發(fā)明公開了一種基于深度強化學習的車聯(lián)網信道資源優(yōu)化方法及系統(tǒng),其中方法包括:首先獲取目標車輛對應的可用信道資源列表;根據(jù)目標車輛中的第一執(zhí)行網絡和可用信道資源列表,確定轉移元組;目標車輛將轉移元組發(fā)送至路測單元;路測單元將接收到的轉移元組存入經驗回放池;從經驗回放池中抽取數(shù)據(jù)進行訓練,并通過最小化損失函數(shù)確定網絡權重;路測單元將網絡權重發(fā)送至目標車輛;目標車輛根據(jù)網絡權重,對第一執(zhí)行網絡和第二執(zhí)行網絡進行更新。本申請實施例讓車輛選擇合適的信道進行通信,優(yōu)化了信道資源的分配方式,降低了信道沖突發(fā)生的可能;另外,本申請實施例提出中心式訓練,分布式決策的框架,能有效提高訓練效率。
聲明:
“基于深度強化學習的車聯(lián)網信道資源優(yōu)化方法及系統(tǒng)” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)