- 简介我们推出了 gg-bench,这是一组专门设计的游戏环境,用于评估语言模型的通用推理能力。与大多数静态基准不同,gg-bench 是一个数据生成过程,可以随时生成新的评估实例。具体来说,gg-bench 通过以下方式合成生成:(1) 使用大型语言模型(LLM)生成新型游戏的自然语言描述;(2) 使用 LLM 将每个游戏以代码形式实现为 Gym 环境;(3) 在生成的游戏上通过自我对弈训练强化学习(RL)代理。我们通过语言模型在这些 RL 代理中的胜率来评估其性能,方法是向模型提供游戏描述、当前棋盘状态和合法移动列表,然后模型输出它希望执行的移动。gg-bench 具有很高的挑战性:最先进的 LLM,如 GPT-4o 和 Claude 3.7 Sonnet,在使用上下文学习的情况下,在 gg-bench 上的胜率仅为 7%-9%,而推理模型如 o1、o3-mini 和 DeepSeek-R1 的平均胜率则达到 31%-36%。我们发布了生成的游戏、数据生成流程以及评估代码,以支持未来的建模工作并扩展我们的基准测试。
- 图表
- 解决问题本论文试图解决如何评估语言模型的通用推理能力问题,特别是通过动态生成的游戏环境来测试模型在新任务中的表现。这是一个新颖的问题,因为传统的静态基准测试无法充分衡量模型的泛化能力。
- 关键思路关键思路是设计一个名为gg-bench的动态评估框架,利用大型语言模型(LLM)自动生成新的游戏环境,并通过强化学习训练代理进行对抗测试。与现有方法不同,该框架不仅依赖于预定义的任务集合,还能持续生成新的评估实例,从而更全面地测试模型的能力。
- 其它亮点1. gg-bench能够动态生成游戏环境和评估实例,增加了测试的多样性和挑战性;2. 实验结果显示当前最先进的LLM(如GPT-4o和Claude 3.7 Sonnet)在该基准上表现较差,而专门优化的推理模型(如o1、o3-mini和DeepSeek-R1)表现显著更好;3. 所有生成的游戏、数据生成过程和评估代码均已开源,便于后续研究;4. 提供了明确的实验设计,包括基于自然语言描述的游戏生成、RL代理训练以及模型对抗测试。
- 相关研究包括:1. 基于棋盘游戏或策略游戏的语言模型评估(例如AlphaZero和MuZero的研究);2. 静态基准测试如MATH、Hellaswag等对语言模型推理能力的评估;3. 自然语言生成环境的研究,例如TextWorld和MINERL项目;4. 类似的工作如ARC(Abstract Reasoning Corpus)和BIG-Bench(Beyond the Imitation Game Benchmark)。
沙发等你来抢
去评论
评论
沙发等你来抢