本發(fā)明公開(kāi)了一種基于強(qiáng)化學(xué)習(xí)PPO2算法的無(wú)人艇位姿控制方法,包括無(wú)人艇環(huán)境建模;根據(jù)無(wú)人艇的情況設(shè)置動(dòng)作和狀態(tài)空間;設(shè)置獎(jiǎng)勵(lì)目標(biāo)權(quán)重,基于所需無(wú)人艇控制目標(biāo)設(shè)置獎(jiǎng)勵(lì)函數(shù)來(lái)控制無(wú)人艇;設(shè)計(jì)深度神經(jīng)網(wǎng)絡(luò),包括狀態(tài)價(jià)值函數(shù)估計(jì)器網(wǎng)絡(luò)和策略網(wǎng)絡(luò);用PPO2算法進(jìn)行無(wú)人艇位姿控制器訓(xùn)練,并對(duì)策略網(wǎng)絡(luò)參數(shù)迭代,直到設(shè)定的訓(xùn)練周期數(shù)目全部結(jié)束,觀察無(wú)人艇位姿控制結(jié)果,并將學(xué)習(xí)步長(zhǎng)、觀測(cè)空間、動(dòng)作空間、訓(xùn)練策略以及訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)保存,作為無(wú)人艇下次調(diào)用。本發(fā)明利用PPO2算法進(jìn)行無(wú)人艇的姿態(tài)航向控制;通過(guò)強(qiáng)化學(xué)習(xí),不依賴于具體模型,能有效地控制復(fù)雜環(huán)境下的無(wú)人艇系統(tǒng)。
聲明:
“基于強(qiáng)化學(xué)習(xí)PPO2算法的無(wú)人艇位姿控制方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)