本發(fā)明提供一種基于參數(shù)化量子線路的強化學(xué)習(xí)策略梯度方法,屬于量子計算技術(shù)領(lǐng)域。因為該方法將輸入狀態(tài)密度矩陣輸入至量子決策神經(jīng)網(wǎng)絡(luò)進行演化,從而輸出決定動作對應(yīng)的概率,因此,該方法相比傳統(tǒng)的強化學(xué)習(xí)策略梯度算法需要訓(xùn)練的參數(shù)大幅減少,并且增加了智能體的優(yōu)化方向,同時在測量后的輸出數(shù)據(jù)設(shè)置全連接層還可以使得輸出動作的輸出維度可調(diào),靈活性更強。
聲明:
“基于參數(shù)化量子線路的強化學(xué)習(xí)策略梯度方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)