GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

2026年04月29日
  • 简介
    我们推出了GLM-5V-Turbo,这是迈向面向多模态智能体的原生基础模型的重要一步。随着基础模型日益部署于真实应用场景中,智能体能力不仅取决于语言推理能力,更依赖于对图像、视频、网页、文档、图形用户界面(GUI)等异构环境的感知、理解与交互能力。GLM-5V-Turbo正是围绕这一目标构建:多模态感知被深度融入推理、规划、工具调用与执行等核心环节,而非仅作为附加于语言模型之上的辅助接口。本报告系统总结了GLM-5V-Turbo在模型架构设计、多模态训练、强化学习、工具链扩展以及与智能体框架集成等关键方向上的主要改进。这些进展使其在多模态编程、视觉化工具调用及基于框架的智能体任务中展现出卓越性能,同时仍保持业界领先的纯文本编程能力。更重要的是,我们的研发实践为构建多模态智能体提供了切实可行的经验启示,凸显了多模态感知的核心地位、分层优化策略的必要性,以及端到端可靠性验证的关键作用。
  • 作者讲解·1
  • 图表
  • 解决问题
    现有基础模型(如纯语言模型)在真实世界代理(agentic)场景中受限于单模态感知能力,难以原生支持对图像、视频、网页、GUI等异构多模态上下文的感知、理解与行动。论文试图验证:将多模态感知深度内嵌为推理、规划、工具使用与执行的核心组件(而非附加接口),能否构建更鲁棒、通用的多模态代理基础模型。
  • 关键思路
    提出‘感知即推理’(Perception-as-Reasoning)范式:GLM-5V-Turbo 不采用传统两阶段架构(视觉编码器→语言模型适配器),而是通过统一的多模态注意力机制与分层tokenization,使视觉特征直接参与符号化推理链;结合多阶段强化学习(视觉指令微调→工具交互RL→端到端任务闭环优化),实现感知、决策与动作的联合优化。
  • 其它亮点
    1)在MM-CodingBench、VisToolBench和AgentBench上显著超越GLM-4V、Qwen2-VL及LLaVA-OneVision;2)保留98.7%的HumanEval文本编码性能,证明多模态增强未损害核心语言能力;3)开源完整训练代码、工具链(支持截图OCR、网页DOM解析、GUI控件定位)及轻量化推理引擎;4)首次引入‘层级验证协议’(HVP),对多步视觉-工具-代码执行进行细粒度轨迹回溯与错误归因;5)值得深入的方向:跨模态记忆机制、低延迟视觉token流式生成、面向物理世界的具身感知对齐。
  • 相关研究
    Qwen2-VL: A Strong Open-Source Multimodal LLM (2024); LLaVA-OneVision: End-to-End Visual Instruction Tuning for Multimodal Agents (2024); InternVL 2: Scaling Up Vision-Language Understanding (2024); ToolLLaMA: Facilitating Large Language Models to Master 1600+ Real-world APIs (2023); Voyager: An Open-Ended Embodied Agent with Large Language Models (2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问