本申請(qǐng)?zhí)峁┮环N基于分層深度強(qiáng)化學(xué)習(xí)模型的機(jī)器人行為決策方法及設(shè)備,本申請(qǐng)通過(guò)模擬人腦的分層組織機(jī)理,提出了一個(gè)解決機(jī)器人稀疏獎(jiǎng)勵(lì)問(wèn)題的深度分層強(qiáng)化學(xué)習(xí)模型,該模型包括頂層模塊和底層模塊兩部分。在機(jī)器人環(huán)境認(rèn)知的過(guò)程中,當(dāng)其處于稀疏獎(jiǎng)勵(lì)的環(huán)境中時(shí),上層模塊根據(jù)智能體與環(huán)境的交互情況,為底層模塊設(shè)定子目標(biāo),同時(shí),上層模塊可以感知環(huán)境并預(yù)測(cè)智能體的狀態(tài)轉(zhuǎn)移。此外,預(yù)測(cè)獎(jiǎng)勵(lì)和獎(jiǎng)勵(lì)增益被添加到該深度分層強(qiáng)化學(xué)習(xí)模型中來(lái)加速底層模塊的學(xué)習(xí)速度,在底層模塊中,設(shè)計(jì)了一個(gè)降維網(wǎng)絡(luò)來(lái)編碼和映射狀態(tài)信息,因此,該深度分層強(qiáng)化學(xué)習(xí)模型可以有效解決智能體的稀疏獎(jiǎng)勵(lì)問(wèn)題。
聲明:
“基于分層深度強(qiáng)化學(xué)習(xí)模型的機(jī)器人行為決策方法及設(shè)備” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)