本發(fā)明提供了一種基于蒙特卡洛采樣的棋牌強(qiáng)化學(xué)習(xí)方法、系統(tǒng)及介質(zhì),包括,獲取玩家的當(dāng)前狀態(tài);確定玩家在所述當(dāng)前狀態(tài)下的多個(gè)預(yù)測(cè)動(dòng)作;對(duì)于所述多個(gè)預(yù)測(cè)動(dòng)作中的每一個(gè):將所述當(dāng)前狀態(tài)和預(yù)測(cè)動(dòng)作輸入棋牌模型,模型輸出所述預(yù)測(cè)動(dòng)作對(duì)應(yīng)的第一評(píng)分,其中,所述棋牌模型通過(guò)基于蒙特卡洛采樣得到的訓(xùn)練樣本訓(xùn)練得到;將最大的第一評(píng)分所對(duì)應(yīng)的預(yù)測(cè)動(dòng)作作為玩家的當(dāng)前動(dòng)作,使得可以將模型的輸出變成1維,便于結(jié)果收斂。
聲明:
“基于蒙特卡洛采樣的棋牌強(qiáng)化學(xué)習(xí)方法、系統(tǒng)及介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)