本發(fā)明屬于視覺技術(shù)領(lǐng)域,具體涉及一種基于深度強(qiáng)化學(xué)習(xí)仿人足球機(jī)器人的實(shí)時主動視覺方法,包括如下步驟:選擇方法、目標(biāo)測定、訓(xùn)練過程和細(xì)節(jié),所述選擇方法通過定義馬爾可夫決策過程來將問題表述為一個情景性強(qiáng)化學(xué)習(xí)問題,同時從當(dāng)前的環(huán)境狀態(tài)得到一個準(zhǔn)確的信念;所述目標(biāo)測定根據(jù)機(jī)器人和球的位置確定最佳視角,并采用基于熵的方法評估自定位視角的效率;所述訓(xùn)練過程和細(xì)節(jié)基于熵的算法輸出用于機(jī)器人頭部的在線控制,使用深度Q?learning方法解決情景性強(qiáng)化學(xué)習(xí)問題。
聲明:
“基于深度強(qiáng)化學(xué)習(xí)仿人足球機(jī)器人的實(shí)時主動視覺方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)