本發(fā)明涉及一種基于深度強化學習的群智感知激勵機制方法,獲取參與者位置和移動軌跡信息,將參與者移動過程建模為馬爾可夫決策過程,采用深度強化學習預測其在下一個激勵周期內的移動軌跡,預測參與者在下一個激勵周期結束時的位置分布,通過計算參與者的預測位置分布與數(shù)據請求方提供的感知數(shù)據目標分布的相對熵,選擇大于相對熵閾值區(qū)域內的參與者進行激勵。本發(fā)明避免在同一時間段內對所有參與者進行激勵、對同一個參與者在所有激勵周期內都進行激勵,合理的激勵機制解決群智感知參與者收集到的感知數(shù)據分布情況與數(shù)據請求方提供的目標數(shù)據分布之間差異較大、覆蓋質量較低的問題;可被廣泛應用于移動群智感知領域,降低激勵參與者的成本。
聲明:
“基于深度強化學習的群智感知激勵機制方法” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)