On the stability of Lipschitz continuous control problems and its application to reinforcement learning

2024年04月20日
  • 简介
    我们解决了在无模型强化学习环境下,特别是针对Lipschitz连续最优控制问题的关键但未被充分探索的Hamilton-Jacobi-Bellman(HJB)方程的稳定性问题。我们在粘性解框架中填补了Lipschitz连续最优控制问题和传统最优控制问题之间的差距,为Lipschitz连续最优控制问题的价值函数的稳定性提供了新的见解。通过在动态和奖励函数上引入结构性假设,我们进一步研究了价值函数的收敛速度。此外,我们引入了一个Lipschitz连续控制问题的广义框架,将原始问题纳入其中,并利用它提出了一种新的基于HJB的强化学习算法。我们使用着名的基准示例来测试所提出的方法的稳定性和性能,并与现有方法进行比较。
  • 图表
  • 解决问题
    本文试图解决Hamilton-Jacobi-Bellman(HJB)方程在模型无关强化学习环境中的稳定性问题,特别是针对Lipschitz连续最优控制问题。
  • 关键思路
    本文在粘性解决方案框架中,将Lipschitz连续最优控制问题与经典最优控制问题联系起来,为Lipschitz连续最优控制问题的价值函数的稳定性提供了新的见解。作者进一步对动态和奖励函数引入结构假设,研究了价值函数收敛的速度,并提出了一个新的基于HJB的强化学习算法。
  • 其它亮点
    本文提出的算法在多个基准测试中表现出良好的稳定性和性能,作者还开源了代码。值得关注的是,本文提出的广义Lipschitz连续控制问题框架可以用于提出新的算法。
  • 相关研究
    在最近的相关研究中,也有一些关于HJB方程的稳定性和强化学习的研究,如“Stability of Hamilton-Jacobi-Bellman equations and its application to reinforcement learning”和“Convergence of Q-learning: A Simple Proof and Some Corrections”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论