Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

2025年03月09日
  • 简介
    DeepSeek-R1-Zero 已成功展示了通过强化学习(RL)在大型语言模型(LLMs)中纯粹地涌现出推理能力。受此突破的启发,我们探讨了如何利用RL来增强多模态大型语言模型(MLLMs)的推理能力。然而,直接使用RL进行训练难以激活MLLMs中的复杂推理能力,如质疑和反思,这主要是由于缺乏大量高质量的多模态推理数据。为了解决这一问题,我们提出了推理MLLM——Vision-R1,以提升多模态推理能力。具体来说,我们首先通过模式桥接和数据过滤,利用现有的MLLM和DeepSeek-R1构建了一个无需人工标注的高质量多模态链式思维(CoT)数据集,获得了包含20万条记录的多模态CoT数据集Vision-R1-cold。该数据集作为Vision-R1的冷启动初始化数据。为了缓解冷启动后过度思考带来的优化难题,我们提出了渐进式思考抑制训练(PTST)策略,并采用带有硬格式化结果奖励函数的组相对策略优化(GRPO),逐步改进模型在1万个样本的多模态数学数据集上学习正确且复杂的推理过程的能力。全面的实验表明,我们的模型在各种多模态数学推理基准测试中平均提升了约6%。Vision-R1-7B在广泛使用的MathVista基准测试中达到了73.5%的准确率,仅比领先的推理模型OpenAI O1低0.4%。相关数据集和代码将在以下地址发布:https://github.com/Osilly/Vision-R1。
  • 图表
  • 解决问题
    该论文试图解决通过强化学习(RL)直接训练多模态大语言模型(MLLMs)时难以激活复杂推理能力的问题,如质疑和反思。这是由于缺乏高质量的多模态推理数据造成的。这个问题在当前领域中具有挑战性,并非全新的问题,但尝试通过特定方法来改善这一现状是创新的。
  • 关键思路
    关键思路是构建一个名为Vision-R1的推理MLLM,首先通过现有的MLLM和DeepSeek-R1生成一个200K规模的高质量多模态链式思维(CoT)数据集(Vision-R1-cold),作为冷启动初始化数据。然后,为了解决冷启动后可能出现的过度思考问题,提出了渐进式思维抑制训练(PTST)策略,并使用组相对策略优化(GRPO)与硬格式化结果奖励函数逐步提升模型的学习能力。相比现有研究,这种方法不仅利用了已有模型的优势,还引入了新的训练策略以增强复杂的推理过程。
  • 其它亮点
    亮点包括:1) 构建了一个大规模、高质量的多模态CoT数据集;2) 提出了PTST策略和GRPO方法来优化推理训练;3) 在多个多模态数学推理基准测试中取得了显著改进,特别是在MathVista基准上达到了73.5%的准确率;4) 数据集和代码将在GitHub上开源,促进了后续研究。未来可以进一步探索更多类型的多模态任务以及更广泛的推理应用场景。
  • 相关研究
    近期相关研究包括:1) DeepSeek-R1-Zero展示了LLMs通过RL获得推理能力的可能性;2) 其他工作如《Enhancing Multimodal Reasoning in LLMs via Reinforcement Learning》探讨了类似主题;3) 关于多模态数据集构建的研究,例如《Building Large-scale Multimodal Datasets for AI Training》。这些研究共同推动了多模态推理领域的进步。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论