Model Predictive Control and Reinforcement Learning: A Unified Framework Based on Dynamic Programming

2024年06月02日
  • 简介
    本文提出了一个新的概念框架,将近似动态规划(DP)、模型预测控制(MPC)和强化学习(RL)联系起来。该框架围绕两个算法展开,这两个算法在很大程度上是相互独立设计的,并通过牛顿法这种强大的机制协同工作。我们称它们为离线训练算法和在线玩算法。这些名称来源于RL在游戏方面的一些主要成功案例,其中最主要的例子是最近的AlphaZero程序(下国际象棋,[SHS17],[SSS17])和结构类似但早在1990年代的TD-Gammon程序(下黑白棋,[Tes94],[Tes95],[TeG96])。在这些游戏背景下,离线训练算法是用于教授程序如何评估位置并在任何给定位置生成好的走法的方法,而在线玩算法是用于实时与人类或计算机对手对战的方法。 值得注意的是,离线训练和在线玩之间的协同作用也支持MPC(以及其他主要类别的序贯决策问题),实际上,MPC的设计架构与AlphaZero和TD-Gammon的设计架构非常相似。这个概念性的洞见为弥合RL和MPC之间的文化鸿沟提供了一个工具,并为MPC中的一些基本问题提供了新的视角。这些问题包括通过rollout增强稳定性属性,通过使用确定性等价处理不确定性,在涉及改变系统参数的自适应控制设置中提高MPC的韧性,以及通过牛顿法暗示的超线性性能界所提供的见解。
  • 图表
  • 解决问题
    论文试图探讨如何连接动态规划、模型预测控制和强化学习,以及它们之间的关系。
  • 关键思路
    论文提出两个算法,即离线训练和在线运行算法,它们通过牛顿法相互作用。这些算法在游戏中的成功启示了模型预测控制和强化学习之间的相似之处。
  • 其它亮点
    论文介绍了离线训练和在线运行算法的工作原理,探讨了它们在模型预测控制中的应用,以及通过牛顿法提高稳定性和性能的方法。实验结果表明,这些算法在控制问题中表现出色,值得进一步研究。
  • 相关研究
    最近的相关研究包括AlphaZero和TD-Gammon等游戏中的强化学习算法,以及模型预测控制中的其他算法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论