Safe Reinforcement Learning on the Constraint Manifold: Theory and Applications

2024年04月13日
  • 简介
    本文旨在将基于学习的技术,特别是强化学习,应用于机器人领域,以解决在非结构化环境下的复杂问题。然而,大多数现有的方法都是在经过精心调整的模拟器中进行训练,然后在实际机器人上部署而没有进行在线微调。在这种情况下,模拟的真实性严重影响了部署的成功率。相反,使用真实世界的交互数据进行学习提供了一种有前途的替代方案:不仅消除了微调模拟器的需要,而且适用于更广泛的任务范围,其中精确建模是不可行的。机器人强化学习面临的一个主要问题是确保安全性,因为未经控制的探索可能会对机器人或环境造成灾难性的损害。实际上,安全规范通常表示为约束,可以是复杂的非线性形式,使得在学习系统中保证安全性具有挑战性。本文展示了如何以原则性的方式在学习机器人系统中施加复杂的安全约束,从理论和实践两个角度进行。我们的方法基于约束流形的概念,表示安全机器人配置的集合。利用微分几何技术,即切空间,我们可以构建一个安全动作空间,允许学习代理程序在确保安全的同时对任意动作进行采样。我们在一个真实的机器人空气曲棍球任务中展示了该方法的有效性,证明了我们的方法可以处理具有复杂约束的高维任务。真实机器人实验的视频可在项目网站(https://puzeliu.github.io/TRO-ATACOM)上找到。
  • 图表
  • 解决问题
    如何在真实世界的机器人学习中实现安全性?
  • 关键思路
    利用约束流形的概念,基于微分几何技术构建安全行动空间,以确保机器人学习代理在采样任意动作时保持安全。
  • 其它亮点
    论文提出的方法在真实机器人的空气曲棍球任务中得到了验证,并展示了其在高维任务和复杂约束下的有效性。论文提供了实验视频和开源代码。
  • 相关研究
    最近的相关研究包括:基于模型的强化学习、基于仿真的强化学习、安全强化学习等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论