Play to Generalize: Learning to Reason Through Game Play

2025年06月09日
  • 简介
    在多模态大语言模型(MLLMs)中开发可泛化的推理能力仍然是一项挑战。受认知科学文献的启发,这些文献表明游戏玩法能够促进可迁移的认知技能,我们提出了一种新的后训练范式,即视觉游戏学习(ViGaL),通过玩类似街机的游戏,使 MLLMs 获得超出领域范围的多模态推理泛化能力。具体而言,我们证明了通过对一个70亿参数的 MLLM 进行基于简单街机游戏(如贪吃蛇)的强化学习(RL)后训练,可以显著提升其在多模态数学基准测试(如 MathVista)以及跨学科问题(如 MMMU)上的下游表现,而这一过程中并未向模型展示任何解题步骤、方程式或图表,这表明模型捕捉到了可迁移的推理技能。令人惊讶的是,我们的模型在多模态推理基准测试中超越了专门针对多模态推理数据调优的专用模型,同时保留了基础模型在通用视觉基准测试中的性能,而这正是专用模型常常难以达到的地方。我们的研究结果揭示了一种新的后训练范式:合成的、基于规则的游戏可以作为可控且可扩展的预文本任务,从而解锁 MLLMs 的可泛化多模态推理能力。
  • 图表
  • 解决问题
    论文试图解决如何增强多模态大语言模型(MLLMs)的泛化推理能力的问题,特别是通过游戏训练是否能够提升模型在未见过领域中的多模态推理能力。这是一个具有挑战性的问题,因为当前大多数方法依赖于特定领域的微调,而本文探索了一种全新的后训练范式。
  • 关键思路
    论文提出了一种名为Visual Game Learning (ViGaL) 的新范式,通过让MLLMs玩简单的 Arcade 游戏(如 Snake)进行强化学习(RL)后训练。这种方法不依赖于传统的数学或视觉数据,而是通过游戏规则培养模型的可迁移推理技能。相比现有方法,这一思路更注重通过合成、规则驱动的任务来解锁模型的通用多模态推理能力。
  • 其它亮点
    1. 模型在下游任务(如 MathVista 和 MMMU 基准测试)中表现出显著改进,即使在 RL 训练过程中没有接触到任何数学方程或图表;2. 在多模态推理基准上超越了专门针对该任务优化的模型,同时保留了基础模型在通用视觉任务上的性能;3. 提出了一种可控且可扩展的预文本任务形式——基于规则的游戏;4. 目前暂无明确提到代码开源,但实验设计清晰,值得进一步研究如何将此方法应用于更复杂的游戏或任务场景。
  • 相关研究
    近期相关研究包括:1. 'Chain of Thought Prompting Elicits Reasoning in Large Language Models',探讨了通过提示链激发模型推理能力;2. 'Multimodal Pre-training with Unified Transformers',研究了统一变换器在多模态预训练中的应用;3. 'Learning to Reason with Large-scale Weakly Supervised Data',关注大规模弱监督数据下的推理学习;4. 'Reinforcement Learning with Human Feedback for Vision-Language Tasks',利用人类反馈改进视觉-语言任务中的强化学习。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论