一種基于強化學習的水下機器人避障路徑規(guī)劃方法,首先對水下機器人的能耗模型以及動力學模型,水下洋流場景模型進行建模;其次將水下機器人對到達路徑點的能耗與時長最小化問題建模為抽象的馬爾可夫決策過程;將當前水下機器人的觀測信息通過抽象網(wǎng)絡(luò)轉(zhuǎn)到隱藏層成為隱藏狀態(tài),將隱藏狀態(tài)和想采取的動作通過轉(zhuǎn)移預測網(wǎng)絡(luò)映射至下一隱藏向量和預測獎勵,另外策略網(wǎng)絡(luò)通過給定的隱藏向量選擇采取的動作以及當前局面的總獎勵,在這個場景中即為到達目標點。通過水下機器人與環(huán)境的不斷交互學習環(huán)境模型,得到即時獎勵改進神經(jīng)網(wǎng)絡(luò)。最后將訓練好的策略網(wǎng)絡(luò)部署到水下機器人中。
聲明:
“基于強化學習的水下機器人避障路徑規(guī)劃方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)