- 简介本文描述了一个新的概念性框架,连接了近似动态规划(DP)、模型预测控制(MPC)和强化学习(RL)。该框架围绕两个算法展开,这两个算法在很大程度上是相互独立设计的,通过牛顿法这一强大的机制协同工作。我们称它们为离线训练算法和在线游戏算法。这些名称借鉴了RL在游戏方面的一些主要成功案例,主要例子是最近(2017年)的AlphaZero程序(下棋,[SHS17],[SSS17]),以及结构类似且更早(1990年代)的TD-Gammon程序(下陀螺,[Tes94],[Tes95],[TeG96])。在这些游戏背景下,离线训练算法是教授程序如何评估位置并在任何给定位置生成好的走步的方法,而在线游戏算法是用来实时与人类或计算机对手对战的方法。 重要的是,离线训练和在线游戏之间的协同作用也是MPC(以及其他主要类别的顺序决策问题)的基础,实际上MPC的设计架构与AlphaZero和TD-Gammon的架构非常相似。这种概念上的洞察力为弥合RL和MPC之间的文化差距提供了一个工具,并对MPC中的一些基本问题提供了新的启示。这些问题包括通过Rollout增强稳定性属性、通过使用确定等价处理不确定性、在涉及改变系统参数的自适应控制设置中MPC的韧性,以及由牛顿法所暗示的超线性性能界限所提供的洞察力。
- 图表
- 解决问题论文旨在提出一个将近似动态规划、模型预测控制和强化学习联系起来的新的概念框架,以解决一些基本的顺序决策问题,如增强学习和模型预测控制中的不确定性处理和稳定性增强等问题。
- 关键思路论文提出了两个算法——离线训练和在线玩,这两个算法通过牛顿法的强大机制相互协作。这种协作方式是强化学习和模型预测控制设计架构的核心,并提供了一个桥梁,以弥合强化学习和模型预测控制之间的文化差异。
- 其它亮点论文还介绍了一些实验和数据集,并提供了一些开源代码。此外,论文还探讨了一些基本问题,如通过rollout增强稳定性属性、通过使用确定等价处理不确定性、在涉及更改系统参数的自适应控制设置中提高MPC的韧性,以及通过牛顿法暗示的超线性性能界的见解。
- 最近的相关研究包括2017年的AlphaZero程序和1990年代的TD-Gammon程序。
沙发等你来抢
去评论
评论
沙发等你来抢