本發(fā)明公開了一種人工智能系統(tǒng)中流水行并行的GPU配置方法及系統(tǒng),其針對共享GPU集群,并應(yīng)用于神經(jīng)網(wǎng)絡(luò)分布式訓(xùn)練。為了解決共享GPU集群下流水行并行中GPU分配方案固定不變而導(dǎo)致無法動態(tài)調(diào)節(jié)GPU配置的問題,所述方法在下一次的訓(xùn)練之前,根據(jù)靜態(tài)指標(biāo)、動態(tài)指標(biāo)得到若干新工作分區(qū),在動態(tài)指標(biāo)中加入GPU的可用帶寬,使得新工作分區(qū)能反應(yīng)GPU的動態(tài)可用資源;再引入了元網(wǎng)絡(luò)預(yù)測每個工作分區(qū)的訓(xùn)練速度來篩選工作分區(qū),及引入強(qiáng)化學(xué)習(xí)來判斷是否更新當(dāng)前的工作分區(qū),通過上述GPU配置方法得到的工作分區(qū)能適應(yīng)于GPU的動態(tài)可用資源,更合理的進(jìn)行分布式訓(xùn)練,有效提高GPU資源利用率以及保證后續(xù)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效率。
聲明:
“人工智能系統(tǒng)中流水行并行的GPU配置方法及系統(tǒng)” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)