Is Value Learning Really the Main Bottleneck in Offline RL?

2024年06月13日
  • 简介
    虽然模仿学习需要高质量的数据,但离线强化学习(RL)理论上应该可以使用价值函数以较低的数据质量实现类似或更好的表现。然而,当前的结果表明,离线RL的表现通常比模仿学习差,而离线RL的表现瓶颈通常不清楚。受此观察的启发,我们旨在了解当前离线RL算法的瓶颈。虽然通常认为离线RL的表现不佳是由于价值函数不完美,但我们问:离线RL的主要瓶颈确实在学习价值函数中吗?还是其他因素呢?为了回答这个问题,我们对离线RL问题的价值学习、策略提取和策略泛化进行了系统的实证研究,分析了这些组件如何影响性能。我们做出了两个令人惊讶的观察。首先,我们发现策略提取算法的选择显著影响离线RL的性能和可扩展性,这往往比价值学习目标更为重要。例如,我们表明常见的价值加权行为克隆目标(例如AWR)并未充分利用学习到的价值函数,而转换为行为约束策略梯度目标(例如DDPG+BC)通常会显著提高性能和可扩展性。其次,我们发现,改善离线RL性能的一个大障碍通常是在训练数据支持之外的测试时状态上的不完美策略泛化,而不是在分布状态上的策略学习。然后,我们展示了使用次优但高覆盖率的数据或测试时策略训练技术可以解决这个泛化问题。具体地,我们提出了两种简单的测试时策略改进方法,并展示了这些方法可以带来更好的性能。
  • 图表
  • 解决问题
    研究当前离线强化学习算法的瓶颈在哪里,为什么当前离线强化学习的表现不如模仿学习?
  • 关键思路
    论文通过对离线强化学习中价值学习、策略提取和策略泛化三个方面的系统实验研究,发现离线强化学习的主要瓶颈不在于学习价值函数,而是策略提取和策略泛化方面存在问题。同时,论文提出两种简单的测试时策略改进方法,以解决策略泛化问题。
  • 其它亮点
    论文发现,离线强化学习中策略提取算法的选择对性能和可扩展性有重要影响,有时比价值学习目标更为重要。论文还发现,提高离线强化学习性能的一个大障碍通常是在训练数据支持之外的测试状态上的不完美策略泛化,而不是在分布状态上的策略学习。论文提出了两种简单的测试时策略改进方法,并证明这些方法可以提高性能。
  • 相关研究
    在这个领域中,最近的相关研究包括《Behavior Regularized Offline Reinforcement Learning》、《Off-Policy Deep Reinforcement Learning without Exploration》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论