DeepSafeMPC: Deep Learning-Based Model Predictive Control for Safe Multi-Agent Reinforcement Learning

2024年03月11日
  • 简介
    安全的多智能体强化学习(Safe MARL)近年来越来越受到关注,强调智能体不仅需要优化全局回报,还需要通过行为约束遵守安全要求。一些最近的工作将控制理论与多智能体强化学习相结合,以解决确保安全的挑战。然而,由于多智能体环境具有复杂和隐含的动态特性,因此在该领域中使用模型预测控制(MPC)方法的应用非常有限。为了弥补这一差距,我们提出了一种新方法,称为基于深度学习的安全多智能体强化学习模型预测控制(DeepSafeMPC)。DeepSafeMPC的关键见解是利用集中式深度学习模型来预测环境动态。我们的方法应用MARL原则来寻找最优解。通过应用MPC,智能体的行动可以同时受到安全状态的限制。我们使用安全多智能体MuJoCo环境展示了我们方法的有效性,展示了在解决MARL中的安全问题方面的重大进展。
  • 图表
  • 解决问题
    本论文旨在解决安全多智能体强化学习中的安全性问题,提出了一种基于深度学习的模型预测控制方法(DeepSafeMPC)
  • 关键思路
    DeepSafeMPC方法通过集中式深度学习模型来预测环境动态,应用多智能体强化学习原则搜索最优解,并通过MPC方法限制智能体行为在安全状态内
  • 其它亮点
    实验结果表明DeepSafeMPC方法在解决多智能体强化学习安全性问题方面具有显著优势,使用了Safe Multi-agent MuJoCo环境,值得进一步研究
  • 相关研究
    近期的相关研究包括基于控制理论的多智能体强化学习安全性问题解决方法的探索,但在这个领域中应用MPC方法的研究还比较有限
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论