GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning

2025年07月01日
  • 简介
    我们推出了GLM-4.1V-Thinking,这是一款视觉语言模型(VLM),旨在提升通用的多模态理解和推理能力。在本报告中,我们分享了在以推理为核心的训练框架开发过程中获得的关键发现。我们首先通过大规模预训练开发出一个具备强大潜力的视觉基础模型,该模型在一定程度上决定了最终性能的上限。随后,我们提出了基于课程采样的强化学习方法(RLCS),以充分释放模型的潜力,从而在包括STEM问题求解、视频理解、内容识别、编程、目标定位、基于图形界面的智能体以及长文档理解等多种任务上实现全面的能力提升。我们开源了GLM-4.1V-9B-Thinking模型,在同等规模模型中实现了最先进的性能。在涵盖28个公开基准的全面评估中,我们的模型在几乎所有任务上的表现都优于Qwen2.5-VL-7B,并在18项基准测试中相对于显著更大的Qwen2.5-VL-72B也达到了相当甚至更优的表现。值得注意的是,在诸如长文档理解和STEM推理等具有挑战性的任务上,GLM-4.1V-9B-Thinking相较于闭源模型如GPT-4o也展现出具有竞争力甚至更优的性能,进一步印证了其强大的能力。相关代码、模型和更多信息请访问https://github.com/THUDM/GLM-4.1V-Thinking。
  • 图表
  • 解决问题
    论文试图解决多模态理解与推理能力不足的问题,特别是在视觉-语言模型(VLM)中实现更通用的跨任务综合能力。目标是验证通过训练框架改进可以显著提升模型性能,并在多个复杂任务上达到或超越当前最先进的水平。
  • 关键思路
    提出了一种以推理为中心的训练框架,包括大规模预训练构建视觉基础模型和基于课程采样的强化学习(RLCS)方法来解锁模型潜力。相比现有研究,该论文强调了系统性地结合预训练与强化学习策略的重要性,而非单一技术改进。
  • 其它亮点
    {GLM-4.1V-9B-Thinking在28个公共基准测试中表现优异,几乎全面超越Qwen2.5-VL-7B,在18项任务上相较于更大的Qwen2.5-VL-72B也表现不俗。,在长文档理解和STEM推理等挑战性任务上,模型表现出与GPT-4o相当甚至更强的能力。,实验设计覆盖广泛任务,如视频理解、代码生成、GUI代理和长文档处理。,模型已开源,代码及更多信息可在GitHub上获取:https://github.com/THUDM/GLM-4.1V-Thinking。}
  • 相关研究
    {Qwen2.5-VL系列模型在多模态领域取得了显著进展。,"近期相关工作包括基于大规模预训练的多模态模型(如Flamingo, KOSMOS-1)。",基于强化学习的课程学习方法已被应用于自然语言处理和计算机视觉领域,但尚未广泛用于多模态模型。,"其他相关论文包括《Flamingo: a Visual Language Model for Few-Shot Learning》和《KOSMOS-1: A Multimodal Foundation Model that Bridges Vision and Language with Multimodal Input-Output Specifications》。"}
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论