EfficientZero V2: Mastering Discrete and Continuous Control with Limited Data

2024年03月01日
  • 简介
    样本效率仍然是将强化学习(RL)应用于实际任务的一个关键挑战。尽管最近的算法在提高样本效率方面取得了重大进展,但没有一个算法在不同领域中始终表现出优异的性能。在本文中,我们介绍了EfficientZero V2,这是一个专门设计用于样本效率RL算法的通用框架。我们已经扩展了EfficientZero的性能到多个领域,包括连续和离散动作,以及视觉和低维度输入。通过我们提出的一系列改进,EfficientZero V2在有限数据情况下在不同任务中均显著优于当前最先进的技术(SOTA)。EfficientZero V2在普遍算法DreamerV3上展现出了显著进步,在Atari 100k、Proprio Control和Vision Control等不同基准测试中,在66个评估任务中的50个任务中取得了优异的结果。
  • 图表
  • 解决问题
    EfficientZero V2试图解决强化学习在现实任务中样本效率的问题。
  • 关键思路
    EfficientZero V2是一个通用框架,旨在提高强化学习算法的样本效率。通过一系列改进,EfficientZero V2在多个领域中表现出卓越的性能,包括连续和离散动作,以及视觉和低维输入。
  • 其它亮点
    EfficientZero V2在有限数据设置下,在多个基准测试中显著优于当前最先进的算法DreamerV3。它在66个评估任务中的50个任务中实现了卓越的结果。论文使用了多个数据集进行实验,并开源了代码。
  • 相关研究
    该领域的其他相关研究包括DreamerV3, SAC和PPO等算法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论