本發(fā)明公開(kāi)了一種基于部分可觀測(cè)強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航控制方法及系統(tǒng),該控制方法及系統(tǒng)主要應(yīng)用于機(jī)器人在模型未知的不確定性環(huán)境的導(dǎo)航任務(wù)中。為在的不確定性環(huán)境下完成導(dǎo)航任務(wù),本發(fā)明采用部分可觀測(cè)環(huán)境下的強(qiáng)化學(xué)習(xí)算法。系統(tǒng)包括濾波單元、規(guī)劃單元、回放池、學(xué)習(xí)單元。在本發(fā)明中,使用狀態(tài)粒子表示信念狀態(tài)以減少信念狀態(tài)更新的計(jì)算復(fù)雜度,使用基于學(xué)得模型的模擬規(guī)劃以提高樣本利用率,使用重采樣方法防止粒子退化問(wèn)題,使用基于信念狀態(tài)負(fù)信息熵的獎(jiǎng)勵(lì)塑形以提高算法在獎(jiǎng)勵(lì)稀疏的導(dǎo)航任務(wù)中的訓(xùn)練效率和穩(wěn)定性。本發(fā)明能夠在模型未知的部分可觀測(cè)環(huán)境實(shí)現(xiàn)高效穩(wěn)定的策略學(xué)習(xí),并在實(shí)際機(jī)器人導(dǎo)航任務(wù)中使用學(xué)得的策略。
聲明:
“基于部分可觀測(cè)強(qiáng)化學(xué)習(xí)的機(jī)器人導(dǎo)航控制方法及系統(tǒng)” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)