本發(fā)明涉及一種基于條件生成對抗網(wǎng)絡的模型化策略搜索學習方法,其技術特點是包括以下步驟:收集環(huán)境的真實狀態(tài)轉移樣本;構造條件生成對抗網(wǎng)絡模型,該條件生成對抗網(wǎng)絡模型包括生成器與判別器;利用真實狀態(tài)轉移樣本訓練條件生成對抗網(wǎng)絡直至收斂,最終訓練得到的生成器為環(huán)境狀態(tài)轉移預測模型;生成數(shù)量足夠多的路徑樣本;利用路徑樣本更新策略搜索強化學習算法中策略模型的參數(shù),直到策略模型的參數(shù)更新收斂為止。本發(fā)明設計合理,當?shù)玫搅谁h(huán)境模型的生成器后,在學習策略時不再需要額外的花費進行樣本的采樣,能夠系統(tǒng)有效地解決大規(guī)模環(huán)境中復雜決策問題。
聲明:
“基于條件生成對抗網(wǎng)絡的模型化策略搜索學習方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)