Dual Policy Reinforcement Learning for Real-time Rebalancing in Bike-sharing Systems

向作者提问

NEW

简介

单车共享系统在缓解交通拥堵和促进健康生活方式方面起着至关重要的作用。然而，确保它们的可靠性和用户接受度需要有效的单车再平衡策略。本研究介绍了一种新的方法来解决实时再平衡问题，即使用车队。它采用了一种双策略强化学习算法，将库存和路由决策解耦，相对于先前的方法，增强了现实性和效率，其中两个决策是同时做出的。我们首先将库存和路由子问题制定为一个连续时间框架内的多智能体马尔可夫决策过程。随后，我们提出了一个基于DQN的双策略框架，共同估计价值函数，最小化失去的需求。为了促进学习，应用了一个全面的模拟器，遵循先到先服务的规则，这使得可以计算出各种需求情况下的即时奖励。我们在受时间和天气因素影响的历史真实数据生成的各种数据集上进行了广泛的实验。我们提出的算法相对于以前的基线方法表现出了显著的性能提升。它为运营商提供了有价值的实践见解，并进一步探索了将强化学习纳入实际动态规划问题中的可能性，为更智能、更强大的城市移动解决方案铺平了道路。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决共享单车系统中的实时再平衡问题，提高其可靠性和用户接受度。这是否是一个新问题？
关键思路

本文提出了一种新的方法，使用双策略强化学习算法来解决实时再平衡问题。该算法将库存和路径规划决策分离，与以前同时做出两个决策的方法相比，提高了现实性和效率。
其它亮点

本文提出的算法在多个数据集上进行了广泛的实验，包括历史真实世界数据，并考虑了时间和天气等因素的影响。实验结果表明，该算法比基线方法显著提高了性能，并为运营商提供了有价值的实用洞见。本文开发了一个全面的模拟器，以运行在先到先服务规则下，从而使得可以计算出各种需求情况下的即时奖励。本文的工作为未来更智能、更强大的城市移动解决方案铺平了道路。
相关研究

最近的相关研究包括：1. 'A Reinforcement Learning Approach to the Dynamic Vehicle Routing Problem with Stochastic Demands'；2. 'A Reinforcement Learning Approach to the Vehicle Routing Problem with Time Windows'；3. 'A Reinforcement Learning Approach to the Vehicle Routing Problem with Simultaneous Pickup and Delivery'。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问