【标题】SafeRL-Kit: Evaluating Efficient Reinforcement Learning Methods for Safe Autonomous Driving
【作者团队】Linrui Zhang, Qin Zhang, Li Shen, Bo Yuan, Xueqian Wang
【发表日期】2022.6.17
【论文链接】https://arxiv.org/pdf/2206.08528.pdf
【Demo】https://github.com/zlr20/saferl_kit
【推荐理由】安全强化学习(RL)在风险敏感任务上取得了显著的成功,在自动驾驶(AD)方面也显示出了良好的前景。考虑到该群体的独特性,安全AD仍然缺乏有效且可重复的基线。本文发布了 SafeRL-Kit,以对面向AD任务的安全RL方法进行基准测试。即 SafeRL-Kit包含几个针对零约束违反任务的最新算法,包括安全层、恢复RL、离线策略的拉格朗日方法和可行的Actor-Critic。除了现有的方法外,还提出了一种新的一阶方法,称为精确惩罚优化(EPO),并充分证明了其在安全AD中的能力。SafeRL-Kit中的所有算法都是在(i)off-policy 设置下实现的,这提高了样本效率,并能更好地利用过去的日志;(ii)具有统一的学习框架,为研究人员提供现成的接口,将其特定领域的知识纳入基本的安全RL方法。最后,在 SafeRL-Kit 中对上述算法进行了比较评估,并阐明了它们在安全自主驾驶方面的有效性。





内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢