- 简介本文探究了数据驱动的Koopman算子与马尔可夫决策过程(MDPs)之间的联系,并开发了两种新的强化学习算法来解决高维状态和非线性系统的问题。我们利用Koopman算子技术将非线性系统提升到新的坐标系中,使得动力学变得近似线性,从而使HJB方法更易处理。特别地,Koopman算子能够通过提升坐标系中的线性动力学来捕捉给定系统的价值函数的时间演化期望。通过使用控制动作对Koopman算子进行参数化,我们构建了一个“Koopman张量”,以便估计最优价值函数。然后,通过Koopman张量的Bellman框架转换,我们重新制定了两种最大熵强化学习算法:软值迭代和软演员-评论家(SAC)。这个高度灵活的框架可以用于确定性或随机系统以及离散或连续时间动力学。最后,我们证明这些Koopman辅助强化学习(KARL)算法在四个控制动力系统上的表现优于传统的基于神经网络的SAC和线性二次调节器(LQR)基线:线性状态空间系统、Lorenz系统、圆柱流体流动和双井势能非各向异性随机强迫。
- 图表
- 解决问题本文旨在探索数据驱动的Koopman算子与马尔可夫决策过程之间的联系,以开发两种新的强化学习算法,以解决高维状态和非线性系统中Bellman方程和HJB方程的难题。
- 关键思路该论文的关键思路是通过Koopman算子技术将非线性系统提升到新坐标系中,使得系统动态变得近似线性,并且可以使用HJB方法进行求解。通过使用控制动作参数化Koopman算子,构建“Koopman张量”,从而实现对最优值函数的估计。然后,通过在Koopman张量中用Bellman框架进行转换,将两种最大熵强化学习算法重新制定:软值迭代和软演员-评论家算法(SAC)。
- 其它亮点该论文提出的Koopman辅助强化学习(KARL)算法在四个受控动态系统上取得了最先进的性能,包括线性状态空间系统、Lorenz系统、流体通过圆柱体、双井势能与非各向异性随机力。该框架非常灵活,可用于确定性或随机系统,以及离散或连续时间动态。论文还提供了开源代码。
- 在这个领域中的其他相关研究包括:《Deep Reinforcement Learning with Double Q-learning》、《Asynchronous Methods for Deep Reinforcement Learning》、《Human-level control through deep reinforcement learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢