提供一種基于在計算資源有限的環(huán)境中低延遲并且適當(dāng)?shù)亟5腄NN的語音合成技術(shù)。聲學(xué)模型學(xué)習(xí)裝置具備:語料庫存儲部,其以話語為單位存儲從多個話語語音中提取出的自然語言特征量序列和自然語音參數(shù)序列;預(yù)測模型存儲部,其存儲用于從某個自然語言特征量序列預(yù)測某個合成語音參數(shù)序列的前饋神經(jīng)網(wǎng)絡(luò)型預(yù)測模型;語音參數(shù)序列預(yù)測部,其以所述自然語言特征量序列為輸入,使用所述預(yù)測模型預(yù)測合成語音參數(shù)序列;誤差累計裝置,其累計與所述合成語音參數(shù)序列和所述自然語音參數(shù)序列有關(guān)的誤差;以及學(xué)習(xí)部,其對誤差進(jìn)行預(yù)定優(yōu)化,學(xué)習(xí)預(yù)測模型,誤差累計裝置使用用于使相鄰的幀彼此與預(yù)測模型的輸出層相關(guān)聯(lián)的損失函數(shù)。
聲明:
“聲學(xué)模型學(xué)習(xí)裝置、語音合成裝置、方法以及程序” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)