實(shí)施方式利用深度強(qiáng)化學(xué)習(xí)來(lái)訓(xùn)練策略神經(jīng)網(wǎng)絡(luò),該策略神經(jīng)網(wǎng)絡(luò)參數(shù)化策略,以用于基于當(dāng)前狀態(tài)來(lái)確定機(jī)器人動(dòng)作。這些實(shí)施方式中的一些從同時(shí)操作的多個(gè)機(jī)器人收集經(jīng)驗(yàn)數(shù)據(jù)。每個(gè)機(jī)器人在作為對(duì)執(zhí)行任務(wù)的每次探索并且各自在情節(jié)期間基于策略網(wǎng)絡(luò)和策略網(wǎng)絡(luò)的當(dāng)前策略參數(shù)被引導(dǎo)的情節(jié)的迭代執(zhí)行期間生成經(jīng)驗(yàn)數(shù)據(jù)的實(shí)例。所收集的經(jīng)驗(yàn)數(shù)據(jù)在情節(jié)期間生成,并用于通過(guò)基于一批所收集的經(jīng)驗(yàn)數(shù)據(jù)迭代地更新策略網(wǎng)絡(luò)的策略參數(shù)來(lái)訓(xùn)練策略網(wǎng)絡(luò)。此外,在由機(jī)器人執(zhí)行的多個(gè)情節(jié)中的每一個(gè)情節(jié)的執(zhí)行之前,可以提供(或檢索)當(dāng)前更新的策略參數(shù),以供情節(jié)的執(zhí)行時(shí)利用。
聲明:
“機(jī)器人操縱的深度強(qiáng)化學(xué)習(xí)” 該技術(shù)專(zhuān)利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專(zhuān)利(論文)的發(fā)明人(作者)