一種方法(500)包括,獲得訓(xùn)練樣本(102)的集合。在多個訓(xùn)練迭代的每個訓(xùn)練迭代期間,該方法包括,從訓(xùn)練樣本的集合中采樣訓(xùn)練樣本的批次。該方法包括,對于每個訓(xùn)練樣本,使用數(shù)據(jù)值估計器(120)來確定選擇概率(106)。訓(xùn)練樣本的選擇概率是基于數(shù)據(jù)值估計器的估計器參數(shù)值(122)。該方法還包括,基于每個訓(xùn)練樣本的選擇概率從訓(xùn)練樣本的批次中選擇訓(xùn)練樣本的子集,以及使用具有訓(xùn)練樣本的子集的預(yù)測器模型(142)來確定性能測量(144)。該方法還包括,基于性能測量來調(diào)整預(yù)測器模型的模型參數(shù)值(143),以及基于性能測量來更新數(shù)據(jù)值估計器的估計器參數(shù)值。
聲明:
“使用強化學(xué)習(xí)的數(shù)據(jù)評估” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)