A Pontryagin Perspective on Reinforcement Learning

简介

强化学习传统上关注学习状态依赖策略以以闭环方式解决最优控制问题。在本文中，我们引入了开环强化学习范式，学习固定的动作序列。我们提出了三种新算法：一种鲁棒的基于模型的方法和两种样本高效的无模型方法。我们的工作不是基于动态规划中的贝尔曼方程，而是基于开环最优控制理论中的庞特里亚金原理。我们提供了收敛保证，并在摆摆臂任务以及两个高维MuJoCo任务上进行了实证评估，与现有基线相比，表现出了显著的性能。
图表
解决问题

开放式强化学习的新范式
关键思路

学习固定的动作序列而不是状态依赖策略
其它亮点

提出了三种新算法，包括一种鲁棒的基于模型的方法和两种样本高效的无模型方法，基于Pontryagin原理而不是动态规划的Bellman方程，提供了收敛保证，实验结果在摆摆起摆任务和两个高维MuJoCo任务上表现出色
相关研究

最近在这个领域中的相关研究包括：《Playing Atari with Deep Reinforcement Learning》、《Human-level control through deep reinforcement learning》、《Continuous control with deep reinforcement learning》等