GEM: A Gym for Agentic LLMs - 智源社区论文

向作者提问

NEW

简介

大型语言模型（LLM）的训练范式正从静态数据集转向基于经验的学习，即智能体通过与复杂环境交互来获得技能。为了推动这一转变，我们推出了GEM（通用经验生成器），这是一个面向LLM时代的开源环境模拟器。类似于传统强化学习（RL）中的OpenAI-Gym，GEM提供了一个标准化的环境-智能体接口框架，支持高吞吐量的异步向量化执行，并配备灵活的封装工具以方便扩展。GEM还包含一系列多样化的环境、强大的集成工具，以及五个主流强化学习训练框架下仅需单个文件即可运行的示例脚本。此外，我们在24个环境中提供了基于REINFORCE算法并结合回报批归一化（ReBN）的一系列基线结果；与GRPO不同，ReBN适用于完整的强化学习设定，包括密集的每回合奖励，并能实现更优的信用分配。我们进一步利用GEM在单回合和多回合设置下对PPO、GRPO和REINFORCE进行了公平的基准比较，以揭示不同算法设计的特点。最后，GEM不仅可作为训练环境，还能充当便捷的评估工具包。我们希望该框架能够助力未来具身智能体与大语言模型相关研究的快速发展。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

随着大语言模型（LLMs）从静态数据训练转向基于经验的交互式学习，缺乏一个标准化、高吞吐、易扩展的环境模拟框架来支持LLM代理在复杂环境中进行强化学习训练与评估。现有工具如OpenAI Gym主要面向传统RL，难以满足LLM代理对多轮交互、密集奖励信号和大规模并行实验的需求。
关键思路

提出GEM（General Experience Maker），一个专为大语言模型时代设计的开源环境模拟器，类比于OpenAI Gym之于传统强化学习的角色。GEM提供标准化的环境-代理接口，支持异步向量化执行以实现高吞吐，并通过灵活的包装器机制支持可扩展性，兼容多种RL训练框架。其核心创新在于适配LLM代理所需的密集每步奖励设置，并引入ReBN（Return Batch Normalization）改进REINFORCE算法以实现更优信用分配。
其它亮点

GEM包含24个多样化的环境、集成强大工具链，并提供单文件示例脚本，展示与PPO、GRPO等5种主流RL框架的集成；开源代码已公开，便于复现与扩展；实验部分进行了PPO、GRPO与REINFORCE在单轮与多轮设置下的公平对比，验证了ReBN在密集奖励场景下的优势；GEM不仅可用于训练，还可作为统一的评估工具包，推动代理型LLM研究的标准化。
相关研究

1. 'Proximal Policy Optimization Algorithms' by J. Schulman et al., 2017 2. 'Online Decision Transformer' by Chen et al., 2023 3. 'Reinforced Prompt Optimization (GRPO)' by Wang et al., 2023 4. 'Large Language Models as Agents' by Yi et al., 2023 5. 'OpenAI Gym: A Toolkit for Developing and Comparing Reinforcement Learning Algorithms' by Brockman et al., 2016

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问