Adaptive Horizon Actor-Critic for Policy Learning in Contact-Rich Differentiable Simulation

2024年05月28日
  • 简介
    这篇论文探讨了无模型强化学习(MFRL)在连续控制任务中取得了相当成功,但由于零阶梯度估计导致梯度方差较高,从而导致次优策略;相反,采用可微分仿真的基于模型的一阶强化学习(FO-MBRL)方法提供了具有降低方差的梯度,但在涉及刚性动态的场景中容易受到采样误差的影响,本文研究了这种误差的来源,并介绍了自适应视野演员-评论家(AHAC)算法,该算法通过调整基于模型的视野来避免刚性动态,从而减少梯度误差。实证结果表明,AHAC优于MFRL基线,在一组运动任务中获得了40%的额外奖励,并能够有效地扩展到高维控制环境,并具有更好的时钟时间效率。
  • 图表
  • 解决问题
    论文旨在解决基于模型的强化学习算法在处理刚性动力学时的采样误差问题,提出了一种自适应的时域Actor-Critic算法(AHAC)。
  • 关键思路
    AHAC算法通过自适应调整模型预测的时域长度,避免了刚性动力学带来的采样误差,从而提高了强化学习算法的性能。
  • 其它亮点
    论文的实验结果表明,AHAC算法在多个运动任务中表现出比基于模型的策略梯度算法更好的性能,同时能够有效地扩展到高维控制环境中,具有更好的时间效率。此外,论文还提供了开源代码和使用的数据集。
  • 相关研究
    最近的相关研究包括《Soft Actor-Critic for Hard Discrete Attention Problems》和《Model-Based Reinforcement Learning with Adversarial Rollouts》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论