【标题】A Deep Value-network Based Approach for Multi-Driver Order Dispatching

【作者】Xiaocheng Tang, Zhiwei Qin, Fan Zhang, Zhaodong Wang, Zhe Xu, Yintai Ma, Hongtu Zhu, Jieping Ye

【研究团队】滴滴AI Labs & 美国西北大学 & 华盛顿州立大学

【发表时间】2021.6.8

【论文链接】https://arxiv.org/pdf/2106.04493.pdf

【推荐理由】本文提出了一种基于深度强化学习的乘车订单调度解决方案。通过滴滴的乘车调度平台,该方法在大规模的在线A/B测试中实现了驾驶员总收入和用户体验相关指标的显著改善。首先,针对订单调度问题,将其建模为一种新的半马尔可夫决策过程,以考虑时间扩展的调度行为。其次,提出了一种新颖的分布式状态表征层Cerebellar价值网络(CVNet),并在此基础上提出了一种新的Lipschitz正则化方案,以保证策略评估过程中值迭代的鲁棒性和鲁棒性。实际数据实验研究结果表明,CVNet对异常点具有很强的鲁棒性,对未知数据具有很好的泛化能力。大量的仿真和在线A/B测试结果表明,CVNet的性能优于其他最新的调度策略。最后,本文使用迁移学习可以进一步改进先前的结果,并有助于CVNet在城市间的扩展。

内容中包含的图片若涉及版权问题,请及时与我们联系删除