Long and Short-Term Constraints Driven Safe Reinforcement Learning for Autonomous Driving

2024年03月27日
  • 简介
    强化学习(RL)被广泛应用于决策任务中,但由于需要与环境进行交互,它无法保证训练过程中代理的安全性,这严重限制了其在自动驾驶等工业应用中的应用。安全RL方法通过将预期的安全违规成本作为训练目标来处理这个问题,但它们仍允许不安全的状态发生,这在自动驾驶任务中是不可接受的。此外,这些方法很难在成本和回报预期之间实现平衡,导致算法的学习性能下降。本文提出了一种基于长短期约束(LSTC)的新算法,用于安全RL。短期约束旨在保证车辆探索的短期状态安全,而长期约束则确保车辆在整个决策过程中的整体安全。此外,我们开发了一种基于拉格朗日乘数的双约束优化的安全RL方法,以优化端到端自动驾驶的训练过程。在MetaDrive模拟器上进行了全面的实验。实验结果表明,与现有方法相比,所提出的方法在连续状态和行动任务中实现了更高的安全性,并在长距离决策任务中表现出更高的探索性能。
  • 图表
  • 解决问题
    该论文旨在解决强化学习在决策任务中无法保证安全性的问题,特别是在自动驾驶等工业应用中的限制。现有的安全强化学习方法仍然允许不安全的状态发生,因此需要提出更好的解决方案。
  • 关键思路
    论文提出了一种基于长短期约束(LSTC)的新型安全强化学习算法,其中短期约束旨在保证车辆探索的短期状态安全,而长期约束则确保整个决策过程中车辆的安全性。此外,论文还开发了一种基于Lagrange乘子的双重约束优化的安全强化学习方法,以优化端到端自动驾驶的训练过程。
  • 其它亮点
    论文在MetaDrive模拟器上进行了全面实验,结果表明,与现有的方法相比,该算法在连续状态和动作任务中实现了更高的安全性,并在长距离决策任务中表现出更高的探索性能。
  • 相关研究
    最近的相关研究包括“Safe Reinforcement Learning via Shielding”和“Safe Reinforcement Learning with Constraint-Driven Adversarial Networks”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论