- 简介我们开源了两个强大的视觉-语言模型:MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL,它们在通用视觉理解和多模态推理方面均达到了顶尖水平。MiMo-VL-7B-RL 在评估的 40 项任务中胜过了通义千问 Qwen2.5-VL-7B 的表现,其中在 35 项任务上更优,并在 OlympiadBench 上取得了 59.4 分的成绩,超越了参数量高达 780 亿的模型。在图形用户界面(GUI)定位应用中,该模型在 OSWorld-G 数据集上达到了 56.1 的新标准,甚至超过了专门设计的模型如 UI-TARS。我们的训练方法结合了四阶段预训练(使用了 2.4 万亿个 token)和混合在线策略强化学习(MORL),后者整合了多样化的奖励信号。我们发现,在预训练阶段引入高质量的长链推理数据至关重要,并且尽管在多领域同时优化时存在挑战,混合强化学习仍带来了显著的好处。此外,我们还贡献了一套涵盖 50 多项任务的全面评估工具,以推动研究的可复现性和领域的发展。模型的检查点和完整的评估套件可在以下链接获取:https://github.com/XiaomiMiMo/MiMo-VL。
- 图表
- 解决问题该论文试图解决多模态模型在视觉理解和推理任务中的性能瓶颈问题,特别是在复杂场景(如GUI grounding)和需要深度推理的任务中。这是一个持续优化的问题,但通过引入更高质量的数据和强化学习方法,尝试进一步提升模型能力。
- 关键思路论文的关键思路是结合四阶段大规模预训练(2.4万亿tokens)与混合在线策略强化学习(MORL),同时强调高质量长链推理数据的重要性。相比现有研究,这种方法不仅提升了模型的泛化能力,还在多领域优化中展现了优势,尤其是在小样本或复杂任务上的表现。
- 其它亮点论文在多个基准测试上取得了显著成果,例如在OlympiadBench中超越了参数量更大的模型,并在OSWorld-G上为GUI grounding设定了新标准。此外,作者开源了模型检查点和全面的评估套件(涵盖50+任务),有助于推动领域内的可复现性和进一步研究。未来可以探索更多样化的奖励信号设计以及跨模态对齐技术。
- 近期相关研究包括Qwen2.5-VL系列、UI-TARS等专注于视觉语言模型的工作。其他类似的研究有:1)《Scaling Laws for Transfer in Multi-Modal Models》探讨了多模态模型的扩展规律;2)《Chain-of-Thought Prompting Elicits Reasoning in Large Language Models》研究了长链推理对大模型的影响;3)《Reinforcement Learning for Vision-Language Navigation》将强化学习应用于视觉语言导航任务。
沙发等你来抢
去评论
评论
沙发等你来抢