本申請實施例公開了用于生成模型的方法和裝置。該方法的一具體實施方式包括:獲取樣本集,樣本集中包括樣本語句以及與樣本語句對應(yīng)的標(biāo)注知識;從樣本集中選取樣本,以及執(zhí)行以下訓(xùn)練步驟:樣本語句輸入第一初始模型,生成與樣本語句對應(yīng)的第一預(yù)測知識;將第一預(yù)測知識輸入第二初始模型,生成與第一預(yù)測知識對應(yīng)的第一預(yù)測語句;將標(biāo)注知識輸入第二初始模型,生成與標(biāo)注知識對應(yīng)的第二預(yù)測語句;將第二預(yù)測語句輸入第一初始模型,生成與第二預(yù)測語句對應(yīng)的第二預(yù)測知識;確定第一獎勵信號;根據(jù)所確定的第一獎勵信號利用強(qiáng)化學(xué)習(xí)方法訓(xùn)練得出第一模型。該實施方式豐富了模型的生成方式。
聲明:
“用于生成模型的方法和裝置” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)