【标题】Value Gradient weighted Model-Based Reinforcement Learning

【作者团队】Claas Voelcker, Victor Liao, Animesh Garg, Amir-massoud Farahmand

【发表日期】2022.4.4

【论文链接】https://arxiv.org/pdf/2204.01464.pdf

【推荐理由】基于模型的强化学习 (MBRL) 是一种获取控制策略的有效技术,但不可避免的建模错误通常会导致性能下降。MBRL 中的模型通常仅适用于重建动态,特别是状态观察,而模型误差对策略的影响并没有被训练目标捕获。价值感知模型学习可以解决这个问题,然而,已有的方法在实践中往往不如常用的基于最大似然 (MLE) 的方法。本文提出了价值梯度加权模型学习 (VaGraM),一种价值感知模型学习的新方法,可提高MBRL在具有挑战性的环境中的性能。作者分析了MLE和价值感知方法,并展示了它们在学习价值感知模型时如何无法解释探索和函数逼近的行为,并强调了在深度学习环境中稳定优化必须满足的其他目标。本文通过证明损失函数能够在Mujoco基准套件上实现高回报来验证有效性,同时比基于最大似然的方法更稳健。

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除