本發(fā)明公開了一種基于深度強(qiáng)化學(xué)習(xí)的智能移動(dòng)平臺(tái)無地圖自主導(dǎo)航方法,在AI2?THOR仿真框架中選取導(dǎo)航場(chǎng)景;構(gòu)建基于Actor?Critic框架的深度強(qiáng)化學(xué)習(xí)模型;根據(jù)動(dòng)作概率分布進(jìn)行移動(dòng)平臺(tái)與導(dǎo)航場(chǎng)景的動(dòng)作交互,更新獎(jiǎng)勵(lì)值和當(dāng)前觀測(cè)信息,若當(dāng)前觀測(cè)信息與目標(biāo)圖像信息匹配,或達(dá)到最大移動(dòng)步數(shù),或連續(xù)采取動(dòng)作數(shù)達(dá)到設(shè)定步數(shù),則更新模型參數(shù),否則繼續(xù)動(dòng)作交互;構(gòu)建Actor?Critic網(wǎng)絡(luò)的損失函數(shù),采用異步優(yōu)勢(shì)算法A3C訓(xùn)練更新深度強(qiáng)化學(xué)習(xí)模型;重復(fù)訓(xùn)練,直至訓(xùn)練步數(shù)達(dá)到設(shè)定閾值;獲取實(shí)際導(dǎo)航場(chǎng)景的初始觀測(cè)信息與目標(biāo)圖像,利用訓(xùn)練好的模型進(jìn)行導(dǎo)航,規(guī)劃智能移動(dòng)平臺(tái)的導(dǎo)航路徑。本發(fā)明無需提前構(gòu)建環(huán)境模型,即可實(shí)現(xiàn)顯示環(huán)境的導(dǎo)航。
聲明:
“基于深度強(qiáng)化學(xué)習(xí)的智能移動(dòng)平臺(tái)無地圖自主導(dǎo)航方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)