Advancing Multimodal Reasoning: From Optimized Cold Start to Staged Reinforcement Learning

2025年06月04日
  • 简介
    受到Deepseek-R1在复杂文本任务中出色推理能力的启发,许多研究尝试通过直接应用强化学习(RL)来激励多模态大语言模型(MLLMs)具备类似的推理能力。然而,这些方法仍然难以激活复杂的推理能力。在本文中,我们并未孤立地研究多模态强化学习,而是深入分析当前的训练流程,并识别出三个关键现象:1) 有效的冷启动初始化对于提升MLLM的推理能力至关重要。有趣的是,我们发现仅通过精心挑选的文本数据进行初始化,就可以在多模态强化学习之前,实现超越许多近期多模态推理模型的性能。2) 标准的GRPO应用于多模态强化学习时,容易出现梯度停滞问题,这会降低训练的稳定性和性能。3) 在多模态强化学习阶段之后,进行纯文本的强化学习训练,可以进一步增强多模态推理能力。这种分阶段的训练方法有效地平衡了感知 grounding 和认知推理的发展。通过整合上述见解并解决多模态强化学习中的问题,我们提出了ReVisual-R1,在包括MathVerse、MathVision、WeMath、LogicVista、DynaMath以及具有挑战性的AIME2024和AIME2025在内的多个基准测试中,实现了开源7B MLLM中的最新技术水平。
  • 图表
  • 解决问题
    论文试图解决多模态大语言模型(MLLMs)在复杂推理任务中的表现不足问题,特别是通过强化学习(RL)提升其推理能力。这是一个长期存在的挑战,但本研究特别关注如何优化训练流程以克服当前方法的局限性。
  • 关键思路
    关键思路是提出一个分阶段的训练框架:1)通过精心挑选的纯文本数据进行冷启动初始化,从而在多模态强化学习之前显著提升模型性能;2)针对标准GRPO在多模态RL中出现的梯度停滞问题进行改进;3)在多模态RL之后引入纯文本RL训练阶段,进一步增强模型的多模态推理能力。这种设计有效平衡了感知与认知能力的发展。
  • 其它亮点
    论文设计了详尽的实验,验证了冷启动初始化和分阶段训练的有效性,并在多个数学推理和逻辑推理基准测试(如MathVerse、LogicVista等)上取得了SOTA结果。此外,ReVisual-R1作为开源7B参数量模型,为社区提供了可复现的研究基础。未来可以深入探索更高效的冷启动策略以及结合更大规模数据集的可能性。
  • 相关研究
    相关研究包括:1)Deepseek-R1展示了单模态模型在复杂推理任务中的潜力;2)Multimodal Reasoning with Reinforcement Learning探索了直接将RL应用于多模态模型的方法;3)其他工作如FLAN系列研究了大规模指令微调对多模态推理的影响;4)Perceptual Grounding in Vision-Language Models讨论了感知与推理之间的权衡问题。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论