- 简介交通信号控制(TSC)是一种有前途的低成本措施,可以在不影响现有道路基础设施的情况下提高交通效率。虽然已经提出了各种基于强化学习的TSC方法并且实验上表现优于传统的基于规则的方法,但是它们中没有一个在实际世界中得到了部署。一个重要的差距在于场景的过于简化,无法涵盖交叉口异质性和道路网络的复杂性。为了使TSC适用于城市交通管理,我们针对城市规模的高真实性道路网络中的TSC协调进行目标设定,旨在解决三个独特而重要的挑战:城市级可扩展性、现实世界交叉口的异质性以及复杂邻居连接之间的有效协调。由于在参数共享范式中优化多个代理可以提高训练效率并有助于实现可扩展性,因此我们提出了基于广泛认可的优化框架参数共享MAPPO的CityLight方法。为了确保统一的策略网络可以学习适应大规模异构交叉口并解决复杂的邻居协调问题,CityLight提出了一个通用的表示模块,包括两个关键设计:异构交叉口对齐和协调的邻域影响对齐。为了进一步提高协调性,CityLight采用邻域集成奖励,从实现局部最优向全局最优转变。对数百到数万个真实世界交叉口和真实的交通需求数据集进行的广泛实验验证了CityLight的惊人有效性和通用性,总体性能提高了11.66%,在吞吐量方面转移场景的提高为22.59%。
-
- 图表
- 解决问题本论文旨在解决城市交通信号控制(TSC)在真实世界中的应用问题,包括城市规模可扩展性、真实世界交叉口的异质性和复杂邻居连接的有效协调。
- 关键思路该论文提出了一种基于参数共享MAPPO的方法,名为CityLight,通过优化多个代理来提高训练效率和实现可扩展性。为了确保统一的策略网络能够学习适应大规模异质交叉口并解决复杂的邻居协调问题,CityLight提出了一个通用表示模块,包括异质交叉口对齐和邻域影响对齐两个关键设计。为了进一步提高协调性,CityLight采用邻域集成奖励,从实现局部最优到实现全局最优的过渡。通过大量实验验证了CityLight的有效性和通用性,获得了11.66%的整体性能提升和22.59%的吞吐量转移方案改进。
- 其它亮点该论文的亮点包括:使用了基于参数共享MAPPO的方法,提高了训练效率和实现可扩展性;提出了通用表示模块,包括异质交叉口对齐和邻域影响对齐两个关键设计;采用邻域集成奖励,从实现局部最优到实现全局最优的过渡。实验使用了数百到数万个真实世界交叉口和真实交通需求的数据集进行验证,证明了CityLight的有效性和通用性。
- 近期在这个领域中的相关研究包括:基于强化学习的TSC方法,如基于DDPG的方法、基于DQN的方法、基于A2C的方法等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流