NEW

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

GLM-V Team ,

: ,

Wenyi Hong ,

Xiaotao Gu ,

Ziyang Pan ,

Zhen Yang ,

Yuting Wang ,

Yue Wang ,

Yuanchang Yue ,

Yu Wang ,

Yanling Wang ,

Yan Wang ,

Xijun Liu ,

Wenmeng Yu ,

Weihan Wang ,

Wei Li ,

Shuaiqi Duan ,

Sheng Yang ,

Ruiliang Lv ,

Mingdao Liu ,

Lihang Pan ,

Ke Ning ,

Junhui Ji ,

Jinjiang Wang ,

Jing Chen ,

Jiazheng Xu ,

Jiale Zhu ,

Jiale Cheng ,

Ji Qi ,

Guobing Gan ,

Guo Wang ,

Cong Yao ,

Zijun Dou ,

Zihao Zhou ,

Zihan Wang ,

Zhiqi Ge ,

Zhijie Li ,

Zhenyu Hou ,

Zhao Xue ,

Zehui Wang ,

Zehai He ,

Yusen Liu ,

Yukuo Cen ,

Yuchen Li ,

Yuan Wang ,

Yijian Lu ,

Yanzi Wang ,

Yadong Xue ,

Xinyu Zhang ,

Xinyu Liu ,

Wenkai Li ,

Tianyu Tong ,

Tianshu Zhang ,

Shengdong Yan ,

Qinkai Zheng ,

Mingde Xu ,

Licheng Bao ,

Jiaxing Xu ,

Jiaxin Fan ,

Jiawen Qian ,

Jiali Chen ,

Jiahui Lin ,

Haozhi Zheng ,

Haoran Wang ,

Haochen Li ,

Fan Yang ,

Dan Zhang ,

Chuangxin Zhao ,

Chengcheng Wu ,

Boyan Shi ,

Bowei Jia ,

Baoxu Wang ,

Peng Zhang ,

Debing Liu ,

Bin Xu ,

Juanzi Li ,

Minlie Huang ,

Yuxiao Dong ,

Jie Tang

2026年04月29日

简介

我们推出了GLM-5V-Turbo，这是迈向面向多模态智能体的原生基础模型的重要一步。随着基础模型日益部署于真实环境之中，智能体能力不仅取决于语言推理能力，更依赖于对图像、视频、网页、文档、图形用户界面（GUI）等异构情境的感知、理解与交互能力。GLM-5V-Turbo正是围绕这一目标构建：多模态感知被深度融入推理、规划、工具调用与执行等核心环节，而非仅作为语言模型的辅助性接口。本报告系统总结了GLM-5V-Turbo在模型架构设计、多模态训练、强化学习、工具链扩展以及与智能体框架集成等关键方向上的主要技术改进。这些进展使其在多模态编程、视觉化工具调用及基于框架的智能体任务中均展现出卓越性能，同时仍保持业界领先的纯文本编程能力。更重要的是，我们的研发实践为构建多模态智能体提供了切实可行的经验启示，凸显了多模态感知的核心地位、分层优化策略的必要性，以及端到端可靠性验证的关键作用。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

现有大语言模型（LLM）驱动的智能体多将视觉等模态作为外部接口或后处理模块，导致感知与推理、规划、执行割裂；论文旨在构建真正‘原生多模态’的智能体基础模型——即多模态感知（如图像、GUI、文档）必须深度内化为推理与行动的核心组成部分，而非辅助插件。
关键思路

摒弃‘LLM + vision encoder adapter’的拼接范式，将多模态编码器与语言模型联合设计、端到端对齐，并在预训练、强化学习和工具执行全栈中统一建模感知—推理—行动闭环；核心创新在于‘感知即推理基石’（perception-as-foundation），使视觉token直接 participate in chain-of-thought, tool selection, and action grounding.
其它亮点

1) 在多模态编程（如UI自动化脚本生成）、视觉工具调用（如OCR+计算器+网页操作联合任务）和Agent框架基准（如WebVoyager、MM-CodeBench）上显著超越GLM-4V及Qwen-VL-Max；2) 保留强文本代码能力（HumanEval+85.3, MBPP+92.1），验证多模态增强不以牺牲纯语言能力为代价；3) 引入分层RL优化：底层视觉动作策略与高层任务规划解耦训练，配合真实GUI环境仿真器进行端到端行为验证；4) 已开源轻量化Turbo版本权重及多模态Agent工具链（glm-agent-sdk），支持自定义视觉工具注册与可视化调试；5) 关键待研方向：跨模态记忆机制、长时序视频-GUI联合建模、零样本多步视觉动作泛化。
相关研究

Qwen2-VL: A Strong Open-Source Multimodal LLM (2024); Llama-3.2-Vision: Native Vision-Language Pretraining with Token-Level Alignment (Meta, 2024); AgentVLM: Towards Multimodal Agentic Reasoning with Vision-Language Models (NeurIPS 2023); VisuoLanguage Toolformer: Learning to Use Visual Tools via Language Modeling (ICML 2023); WebGPT-Visual: Grounding Language Agents in Real Web Interfaces (OpenAI Technical Report, 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问