本申請(qǐng)實(shí)施例提供了一種響應(yīng)消息輸出方法、裝置、存儲(chǔ)介質(zhì)和電子設(shè)備,所述響應(yīng)信息輸出方法,所述方法包括:獲得當(dāng)前節(jié)點(diǎn)的信息;將所述當(dāng)前節(jié)點(diǎn)的信息輸入響應(yīng)節(jié)點(diǎn)預(yù)測(cè)模型,以確定所述當(dāng)前節(jié)點(diǎn)對(duì)應(yīng)的目標(biāo)響應(yīng)節(jié)點(diǎn);輸出所述目標(biāo)響應(yīng)節(jié)點(diǎn)的信息;其中,所述響應(yīng)節(jié)點(diǎn)預(yù)測(cè)模型是根據(jù)不同節(jié)點(diǎn)之間的轉(zhuǎn)移關(guān)系,對(duì)預(yù)設(shè)模型進(jìn)行多次強(qiáng)化學(xué)習(xí)訓(xùn)練所得到的模型,每次強(qiáng)化學(xué)習(xí)訓(xùn)練的獎(jiǎng)勵(lì)值是根據(jù)所述預(yù)設(shè)模型本次預(yù)測(cè)的響應(yīng)節(jié)點(diǎn)與預(yù)設(shè)期望響應(yīng)節(jié)點(diǎn)之間的匹配度確定的。在模型針對(duì)每次輸入而得到的輸出結(jié)果的基礎(chǔ)上,對(duì)模型施加即時(shí)獎(jiǎng)懲,以使模型根據(jù)獲得的即時(shí)獎(jiǎng)懲進(jìn)行迭代更新,從而提高強(qiáng)化學(xué)習(xí)的效率。
聲明:
“響應(yīng)信息輸出方法、裝置、電子設(shè)備及可讀存儲(chǔ)介質(zhì)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)