REASONING GYM: Reasoning Environments for Reinforcement Learning with Verifiable Rewards

2025年05月30日
  • 简介
    我们介绍了推理 gym (RG),这是一个为强化学习设计的推理环境库,具有可验证的奖励机制。该库提供了超过100种数据生成器和验证器,涵盖多个领域,包括代数、算术、计算、认知、几何、图论、逻辑以及各种常见的游戏。其核心创新在于能够生成几乎无限的训练数据,并且复杂度可调,这与大多数先前固定的推理数据集不同。这种过程化生成方法使得可以在不同难度级别上进行连续评估。我们的实验结果表明,RG 在评估和强化学习推理模型方面具有有效性。
  • 图表
  • 解决问题
    论文试图解决强化学习模型在推理任务上的训练和评估问题,特别是如何通过可验证奖励机制来提升模型的推理能力。这是一个具有挑战性的问题,因为大多数现有的推理数据集是固定的,难以适应不同复杂度的需求。
  • 关键思路
    RG的核心创新在于提供了一个基于过程生成的数据环境库,能够动态生成几乎无限量的训练数据,并支持调整任务复杂度。这与传统固定数据集的方法形成鲜明对比,为连续评估和训练提供了新途径。
  • 其它亮点
    RG涵盖了多个领域(如代数、逻辑、图论等)超过100种数据生成器和验证器,适用范围广泛。实验结果表明其在强化学习中的有效性。此外,RG支持开源,便于研究者复现和扩展。未来可以深入研究跨领域迁移学习以及更复杂的推理任务。
  • 相关研究
    相关研究包括DeepMind的AlphaGo系列、OpenAI的GPT系列中涉及推理能力的部分,以及专门针对数学推理的任务如MathQA和MATH数据集。其他类似工作还包括程序合成领域的DSB和Neural LISP,但这些方法通常缺乏RG提供的动态难度调整功能。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论