Adaptive Horizon Actor-Critic for Policy Learning in Contact-Rich Differentiable Simulation

2024年05月28日
  • 简介
    本文研究了无模型强化学习(MFRL)和基于模型的强化学习(FO-MBRL)方法在连续控制任务中的表现。其中,MFRL方法利用策略梯度定理在这些任务中表现出了相当的成功。然而,由于零阶梯度估计,这些方法受到高梯度方差的困扰,导致产生次优策略。相反,FO-MBRL方法采用可微分仿真,提供了方差较小的梯度,但在涉及刚性动态的情况下,如物理接触,容易受到采样误差的影响。本文调查了这种误差的来源,并引入了自适应视野演员-评论家(AHAC)算法,该算法通过调整基于模型的视野以避免刚性动态,从而减少梯度误差。实证结果表明,AHAC优于MFRL基线,在一组运动任务中获得了40%以上的奖励,并且在高维控制环境中具有更好的时钟效率。
  • 图表
  • 解决问题
    本论文旨在解决模型基础强化学习方法(FO-MBRL)在处理刚性动力学的物理接触场景时,存在采样误差的问题。
  • 关键思路
    论文提出了自适应视野演员-评论家(AHAC)算法,通过调整模型基础的视野来避免刚性动力学,从而减少梯度误差。
  • 其它亮点
    论文的实验结果表明,AHAC算法在一系列运动任务中优于MFRL基线,获得了40%的额外奖励,并且在高维控制环境中具有更好的时间效率。此外,论文还开源了代码。
  • 相关研究
    近期的相关研究包括《Model-Based Reinforcement Learning for Atari》、《Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论