本發(fā)明公開了一種基于深度強(qiáng)化學(xué)習(xí)的服務(wù)機(jī)器人行人感知避障方法,涉及深度學(xué)習(xí)和服務(wù)機(jī)器人避障領(lǐng)域。該方法在訓(xùn)練階段:首先,使用ORCA算法生成訓(xùn)練數(shù)據(jù)。然后,隨機(jī)生成實(shí)驗(yàn)場景,使用初始化后的強(qiáng)化學(xué)習(xí)模型與環(huán)境交互生成新的訓(xùn)練數(shù)據(jù),并融合進(jìn)原有訓(xùn)練數(shù)據(jù)。最后,在新的訓(xùn)練數(shù)據(jù)上利用SGD算法訓(xùn)練網(wǎng)絡(luò),得到最終的網(wǎng)絡(luò)模型。該方法在執(zhí)行階段:通過激光雷達(dá)獲取周圍行人的狀態(tài),根據(jù)訓(xùn)練好的模型和獎(jiǎng)勵(lì)函數(shù)計(jì)算預(yù)測(cè)狀態(tài),選擇獲得最大獎(jiǎng)勵(lì)的動(dòng)作作為輸出并執(zhí)行。本發(fā)明具有很強(qiáng)的實(shí)時(shí)性和適應(yīng)性,在行人環(huán)境下,可以使機(jī)器人遵守行人的右行規(guī)則,規(guī)劃出高效、安全、自然的路徑,提升了服務(wù)機(jī)器人的智能性和社交性。
聲明:
“基于深度強(qiáng)化學(xué)習(xí)的服務(wù)機(jī)器人行人感知避障方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)