本發(fā)明公開了一種基于混合分層強(qiáng)化學(xué)習(xí)的網(wǎng)約車調(diào)度方法,包括以下步驟:將網(wǎng)約車調(diào)度過程構(gòu)建為馬爾科夫過程;基于所述網(wǎng)約車調(diào)度過程提取時間信息、司機(jī)分布和訂單分布進(jìn)行仿真處理,構(gòu)建司機(jī)與訂單的時空分布矩陣;構(gòu)建混合分層模型,所述混合分層學(xué)習(xí)高層決策和低層決策,為司機(jī)匹配訂單獲得調(diào)度結(jié)果;將所述調(diào)度結(jié)果進(jìn)行存儲和學(xué)習(xí),計(jì)算出所述高層決策和低層決策的獎勵,更新模型;所述混合分層模型進(jìn)行測試,獲得訂單響應(yīng)率和訂單收益,完成網(wǎng)約車調(diào)度。本發(fā)明利用分層強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了網(wǎng)約車調(diào)度的多層次目標(biāo)學(xué)習(xí),并使用混合模塊聯(lián)合多層決策,使得網(wǎng)約車能更高效的完成訂單。
聲明:
“基于混合分層強(qiáng)化學(xué)習(xí)的網(wǎng)約車調(diào)度方法” 該技術(shù)專利(論文)所有權(quán)利歸屬于技術(shù)(論文)所有人。僅供學(xué)習(xí)研究,如用于商業(yè)用途,請聯(lián)系該技術(shù)所有人。
我是此專利(論文)的發(fā)明人(作者)