一種基于強(qiáng)化學(xué)習(xí)的Baxter機(jī)械臂軌跡跟蹤控制方法,首先對(duì)Baxter機(jī)械臂前三個(gè)關(guān)節(jié)進(jìn)行系統(tǒng)辨識(shí),確定其連續(xù)時(shí)間的狀態(tài)空間方程并將之離散化,得到離散的狀態(tài)空間模型,該步驟僅用于在仿真時(shí)獲取機(jī)器人前三個(gè)關(guān)節(jié)下一時(shí)刻的位置和速度跟蹤誤差;首先給定機(jī)械臂前三個(gè)關(guān)節(jié)一個(gè)初始狀態(tài),按照固定的采樣時(shí)間測(cè)量并記錄三個(gè)關(guān)節(jié)下一時(shí)刻的位置和速度跟蹤誤差,對(duì)采集到的位置和速度信息預(yù)處理之后使用遞歸的最小二乘法計(jì)算最優(yōu)控制策略所對(duì)應(yīng)的權(quán)值矩陣H,最后根據(jù)權(quán)值矩陣計(jì)算出下一時(shí)刻的最優(yōu)反饋控制。本發(fā)明自動(dòng)適應(yīng)模型改變帶來(lái)的模型誤差,提高機(jī)器人在日常使用中的準(zhǔn)確性。
聲明:
“基于強(qiáng)化學(xué)習(xí)的Baxter機(jī)械臂軌跡跟蹤控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)