【标题】AdaPool: A Diurnal-Adaptive Fleet Management Framework using Model-Free Deep Reinforcement Learning and Change Point Detection 【作者团队】Marina Haliem, Vaneet Aggarwal, Bharat Bhargava 【研究机构】普渡大学 【发表时间】2021.4.1 【论文链接】原文链接 【推荐理由】本文提出新颖的基于乘车共享的分布式自适应深度Q学习方法—即“AdaPool”框架和基于需求感知匹配和路线规划的方法。该方法集成了基于DQN的调度算法,其可以动态生成理想的路径,并动态适应不断变化的环境。实验结果表明,AdaPool框架提高了接受率,同时提高了司机的利润并缩短了他们的平均行驶距离。
本文提出了一种自适应无模型深度强化方法,该方法可以识别并适应拼车环境中的昼夜模式。深度强化学习(DRL)由于无法预测变化的时程而遭受灾难性的遗忘在分配经验。尽管可以保证RL算法在Markov决策过程(MDP)中收敛于最优策略,但这仅适用于静态环境。但是,这个假设限制性很强。在许多现实世界的问题中,如乘车共享(拼车)、交通控制等。本文正在研究高度动态的环境,其中RL方法仅产生次优决策。为了在高度动态的环境中缓解这一问题,本文首先采用Dirichlet变更点检测(ODCP)算法来检测经验分布的变化,其次,开发了一个Deep Q Network (DQN)代理,该代理能够识别昼夜模式,并根据底层环境的变化做出明智的调度决策。所提出的方法不是按一周中的时间固定模式,而是自动检测MDP已更改,并使用新模型的结果。除了调度中的自适应逻辑,本文还提出了一个动态的、需求感知的车辆-乘客匹配和路线规划框架,该框架基于在线需求、车辆容量和位置为每辆车动态生成最佳路线。对纽约市出租车公共数据集的评估表明,该方法在提高车队利用率方面是有效的,其中不到50%的车队被用来满足高达90%的需求,同时最大程度地提高了利润和最大限度地减少了闲置时间。
图1: AdaPool 框架的整体架构
图2:AdaPool框架
图3:AdaPool and the Baseline评价指标对比直方图
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢