【论文标题】使用参考系统进行深度强化学习,以处理约束以实现节能列车控制

【作者团队】Mengying Shang, Yonghua Zhou, Hamido Fujita

【发表时间】 2021-05-13

【论文链接】https://www.sciencedirect.com/science/article/pii/S0020025521004291

【推荐理由】列车节能控制涉及复杂的优化过程,这些过程受速度,时间,位置和舒适度要求等约束。常规的优化技术不适合通过学习连续遇到的新问题来将大量解决方案实例累积到决策智能中。深度强化学习(DRL)可以直接基于当前状态输出控制决策,它已显示出下一代智能控制的巨大潜力。但是,如果将DRL直接应用于节能列车控制,则接收到的结果几乎不能令人满意。原因在于,智能体可能对如何权衡这些约束感到困惑,并花费大量的计算时间来进行大量无意义的探索。本文尝试提出一种带有参考系统(DRL-RS)的DRL方法,用于主动约束处理,该参考系统用于检查和纠正代理的学习进度,从而避免越走越远。通过地铁线路列车控制的数值实验对提出的方法进行了评估。实验结果表明,与直接应用的DRL相比,DRL-RS可以实现更快的学习收敛。此外,与常用的遗传算法相比,可以减少更多的能耗。通过地铁线路列车控制的数值实验对提出的方法进行了评估。实验结果表明,与直接应用的DRL相比,DRL-RS可以实现更快的学习收敛。

内容中包含的图片若涉及版权问题,请及时与我们联系删除