本公開公開了一種模型訓練方法、裝置、設備、存儲介質和程序產品,涉及人工智能領域,尤其涉及強化學習、NLP等領域。具體實現(xiàn)方案為:獲取用戶在人機交互過程中輸入的對話信息;基于對話信息,并利用第一意圖識別模型、第一循環(huán)神經網(wǎng)絡和第一命名實體識別模型,獲得對應的預測信息;基于預測信息,并利用第一行為決策模型,獲得對應的機器行為信息,以便機器在人機交互過程中基于機器行為信息做出的對應的機器行為;獲取用戶針對機器行為輸入的反饋信息;將預測信息、機器行為信息和反饋信息中的至少之一作為訓練數(shù)據(jù)存入數(shù)據(jù)庫;以及響應于數(shù)據(jù)庫中的訓練數(shù)據(jù)達到預設數(shù)據(jù)量,基于數(shù)據(jù)庫中的訓練數(shù)據(jù),并利用強化學習算法在線進行模型優(yōu)化訓練。
聲明:
“模型訓練方法、裝置、設備、存儲介質和程序產品” 該技術專利(論文)所有權利歸屬于技術(論文)所有人。僅供學習研究,如用于商業(yè)用途,請聯(lián)系該技術所有人。
我是此專利(論文)的發(fā)明人(作者)