本說明書實施例提供一種激勵決策模型的運(yùn)動引導(dǎo)方法,訓(xùn)練健康狀態(tài)預(yù)測模型,預(yù)測用戶的健康狀態(tài)上升空間,并確定當(dāng)前階段的健康狀態(tài)上升空間,獲取樣本用戶的動作信息和對應(yīng)的健康狀態(tài)變化數(shù)據(jù),構(gòu)造激勵函數(shù),利用樣本用戶的動作信息和對應(yīng)的健康狀態(tài)變化數(shù)據(jù)對激勵函數(shù)進(jìn)行強(qiáng)化學(xué)習(xí),生成動作空間,結(jié)合強(qiáng)化學(xué)習(xí)出的激勵函數(shù)構(gòu)造動作決策模型,在動作空間中進(jìn)行搜索生成動作策略,計算其激勵函數(shù)值,并進(jìn)行迭代,直至計算出的激勵函數(shù)值滿足預(yù)設(shè)條件,輸出動作策略,持續(xù)更新引導(dǎo)用戶運(yùn)動并進(jìn)行動作識別,通過利用激勵函數(shù)值進(jìn)行迭代的方式可得到全局最優(yōu)的動作策略,提高了與用戶的匹配度。
聲明:
“激勵決策模型的運(yùn)動引導(dǎo)方法、裝置和電子設(shè)備” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)