本申請(qǐng)涉及一種強(qiáng)化學(xué)習(xí)模型處理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。所述方法包括:當(dāng)虛擬環(huán)境中多個(gè)不同陣營(yíng)的虛擬角色之間進(jìn)行交互時(shí),獲取交互所產(chǎn)生的交互數(shù)據(jù);通過(guò)圖形處理器和中央處理器分別對(duì)所述交互數(shù)據(jù)進(jìn)行特征提取,并將所提取的特征進(jìn)行合并得到角色特征;通過(guò)強(qiáng)化學(xué)習(xí)模型對(duì)所述角色特征進(jìn)行特征處理,預(yù)測(cè)出每個(gè)虛擬角色對(duì)應(yīng)的交互行為和獎(jiǎng)勵(lì)值;基于包括所述角色特征、所述交互行為和所述獎(jiǎng)勵(lì)值的訓(xùn)練樣本,對(duì)與所述強(qiáng)化學(xué)習(xí)模型關(guān)聯(lián)的模型進(jìn)行迭代訓(xùn)練;當(dāng)訓(xùn)練所得的模型達(dá)到訓(xùn)練停止條件時(shí),將訓(xùn)練所得的模型作為最終的強(qiáng)化學(xué)習(xí)模型。采用本方法能夠訓(xùn)練得到的強(qiáng)化學(xué)習(xí)模型的精度。
聲明:
“強(qiáng)化學(xué)習(xí)模型處理方法、裝置、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)