- 简介在大规模语言和计算机视觉模型中成功运用了上下文学习模式后,最近兴起的上下文强化学习领域正在经历快速增长。然而,由于所有实验都在简单环境和小规模数据集中进行,其发展一直受到缺乏具有挑战性的基准测试的阻碍。我们提出了基于XLand-MiniGrid环境的大规模数据集XLand-100B,作为缓解这个问题的第一步。它包含近30,000个不同任务的完整学习历史,涵盖了100B个转换和2.5B个剧集。收集这个数据集需要50,000个GPU小时,这超出了大多数学术实验室的能力范围。除了数据集,我们还提供了工具来复制或进一步扩展它。通过这项重大努力,我们旨在使快速增长的上下文强化学习领域的研究民主化,并为进一步扩展提供坚实的基础。代码是开源的,可在Apache 2.0许可下的https://github.com/dunno-lab/xland-minigrid-datasets获取。
- 图表
- 解决问题本论文旨在解决in-context reinforcement learning领域缺乏具有挑战性的基准测试问题,通过提供一个大规模数据集XLand-100B来解决这一问题。
- 关键思路本论文的关键思路是基于XLand-MiniGrid环境构建一个大规模数据集,该数据集包含近30000个不同任务的完整学习历史,覆盖了100B个转换和2.5B个episode,并提供工具来重现或进一步扩展它。
- 其它亮点本论文的实验设计是非常值得关注的,使用了一个大规模的数据集,并提供了开源代码来帮助其他研究者进行相关研究。此外,本论文的数据集和工具可以为in-context reinforcement learning领域的进一步扩展提供坚实的基础。
- 最近在in-context reinforcement learning领域中,还有一些相关的研究,例如《Exploration by Random Network Distillation》、《Dopamine: A Research Framework for Deep Reinforcement Learning》等。
沙发等你来抢
去评论
评论
沙发等你来抢