Deterministic Uncertainty Propagation for Improved Model-Based Offline Reinforcement Learning

2024年06月06日
  • 简介
    目前,基于模型的离线强化学习常常采用基于不确定性的奖励惩罚方法来解决分布偏移问题。虽然这些方法取得了一定的成功,但我们认为这种惩罚方法引入了过多的保守性,可能会导致低估而产生次优策略。我们认为过度惩罚的一个重要原因是缺乏可靠的不确定性估计器,能够在Bellman算子中传播不确定性。通常计算惩罚项的方法是基于采样的不确定性估计,导致方差很高。为了解决这个挑战,我们提出了一种新的方法,称为Moment Matching Offline Model-Based Policy Optimization (MOMBO)。MOMBO使用矩匹配学习Q函数,这使得我们能够确定地通过Q函数传播不确定性。我们在各种环境中评估了MOMBO的性能,并经验证明MOMBO是一种更稳定、更节约样本的方法。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决模型基础的离线强化学习中存在的分布偏移问题。当前的方法通常采用基于不确定性的奖励惩罚方法来解决这个问题,但这种方法可能会引入过度保守性,导致低估的子优策略。
  • 关键思路
    本文提出了一种新的方法MOMBO,使用矩匹配来学习Q函数,从而可以确定性地传播Q函数中的不确定性。相比于基于采样的不确定性估计方法,MOMBO可以更稳定和高效地解决分布偏移问题。
  • 其它亮点
    本文的实验结果表明,MOMBO在不同的环境下都有更好的表现,并且相比于现有方法更加稳定和高效。论文没有提供开源代码,但提供了详细的实验结果和数据集信息。值得进一步研究的是如何将MOMBO应用到其他领域中。
  • 相关研究
    在这个领域中,最近的相关研究包括:Offline Reinforcement Learning with Distributional Correction (ICML 2020), Conservative Q-Learning for Offline Reinforcement Learning (ICLR 2021)等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问