- 简介城市拥堵仍然是一个重要的挑战,交通信号控制(TSC)被认为是一个有效的解决方案。TSC通常被建模为马尔可夫决策过程问题,然后使用强化学习(RL)来解决,这已经被证明是有效的。然而,现有的基于RL的TSC系统通常忽略了由降级通信引起的不完美观察,例如数据包丢失、延迟和噪声,以及罕见的现实生活事件,这些事件没有包含在奖励函数中,例如未考虑的紧急车辆。为了解决这些限制,我们引入了一种新的集成框架,将大型语言模型(LLM)与RL相结合。这个框架旨在管理奖励函数中被忽略的元素和状态信息中的差距,从而增强RL代理的策略。在我们的方法中,RL最初基于观察数据做出决策。随后,LLM评估这些决策以验证它们的合理性。如果发现决策不合理,就会相应地进行调整。此外,这种集成方法可以与现有的基于RL的TSC系统无缝集成,无需进行修改。广泛的测试证实,与传统的RL方法相比,在降级通信条件下,我们的方法将平均等待时间缩短了17.5%,凸显了它在智能交通系统中推进实际RL应用的潜力。相关代码可以在\url{https://github.com/Traffic-Alpha/iLLM-TSC}找到。
-
- 图表
- 解决问题解决问题:论文试图解决什么问题,或者验证什么假设?这是否是一个新问题?
- 关键思路关键思路:论文中解决问题的方案关键思路是什么?相比当前这个领域的研究状况,这篇论文的思路有什么新意?
- 其它亮点其他亮点:论文提出了一个将大型语言模型(LLM)与强化学习(RL)相结合的框架,以改进交通信号控制系统的决策策略。这个框架能够处理强化学习中存在的缺陷和限制,如不完美的观测和奖励函数中未考虑的事件。实验结果表明,该方法在降低平均等待时间方面比传统的强化学习方法提高了17.5%,具有实际应用价值。相关代码已在GitHub上开源。
- 相关研究:最近在这个领域中,还有哪些相关的研究被进行?能否列举一些相关研究的论文标题?
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流