本申請(qǐng)公開了一種智能交互模型的訓(xùn)練方法、交互方法、裝置及設(shè)備,該訓(xùn)練方法獲取包括多個(gè)第一輸入語句的第一輸入信息,將第一輸入語句輸入到智能交互模型中,通過各個(gè)子交互模型對(duì)第一輸入語句進(jìn)行交互預(yù)測(cè),得到多個(gè)初始輸出語句,并通過中控子模型根據(jù)第一輸入語句從多個(gè)初始輸出語句選擇對(duì)應(yīng)的目標(biāo)輸出語句,對(duì)若干組第一輸入語句和第一輸入語句對(duì)應(yīng)的目標(biāo)輸出語句進(jìn)行匹配分析,得到匹配評(píng)分;并根據(jù)匹配評(píng)分確定獎(jiǎng)勵(lì)值,通過獎(jiǎng)勵(lì)值對(duì)中控子模型進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,得到訓(xùn)練好的智能交互模型。該訓(xùn)練方法可以提高智能交互模型處理多輪交互任務(wù)的性能,有利于改善用戶體驗(yàn)。本申請(qǐng)可廣泛應(yīng)用于人機(jī)交互技術(shù)領(lǐng)域內(nèi)。
聲明:
“智能交互模型的訓(xùn)練方法、交互方法、裝置及設(shè)備” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請(qǐng)聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)