AC4MPC: Actor-Critic Reinforcement Learning for Nonlinear Model Predictive Control

2024年06月06日
  • 简介
    本文介绍了两种强大的控制策略,即模型预测控制(MPC)和强化学习(RL),它们具有互补的优势。我们展示了如何利用演员-评论家强化学习技术来提高MPC的性能。RL评论家被用作最优值函数的近似,演员回溯提供了MPC原始变量的初始猜测。提出了一种并行控制架构,其中每个MPC实例都会为不同的初始猜测解决两次。除了演员回溯初始化外,还使用了从先前解决方案中的移位初始化。之后,演员和评论家再次用于近似评估这些轨迹的无限时间成本。最低成本轨迹的控制动作应用于每个时间步的系统中。我们证明了所提出的算法保证优于原始的RL策略加上一个误差项,该误差项取决于评论家的准确性,并随着MPC公式的视野长度而衰减。此外,我们不需要全局最优解即可保证这些保证。该方法在一个说明性的玩具示例和一个自动驾驶超车场景中进行了演示。
  • 图表
  • 解决问题
    本论文旨在探讨如何将Actor-Critic强化学习技术应用于MPC控制策略中,以提高系统性能。
  • 关键思路
    本文提出了一种并行控制架构,其中每个MPC实例都会为不同的初始猜测解决两次。除了使用来自Actor的初始猜测外,还使用了来自先前解决方案的平移初始化。此外,演员和评论家再次用于大致评估这些轨迹的无限时间成本。最低成本轨迹的控制动作应用于每个时间步骤的系统。该算法保证优于原始RL策略加上依赖于MPC公式的视野长度衰减的误差项,而不需要全局最优解。
  • 其它亮点
    本文的亮点在于提出了一种新的MPC控制策略,将Actor-Critic强化学习技术应用于其中。实验结果表明,该算法优于原始RL策略。本文的方法在Toy例子和AD超车场景中进行了演示。
  • 相关研究
    最近的相关研究包括: 1. 'Reinforcement Learning Based Model Predictive Control with Adaptive Horizon', 2. 'Learning Model Predictive Control for Iterative Tasks Using Deep Neural Networks', 3. 'Data-Driven Model Predictive Control Using Gaussian Process Regression'等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论