NEW

GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

GLM-V Team ,

: ,

Wenyi Hong ,

Xiaotao Gu ,

Ziyang Pan ,

Zhen Yang ,

Yuting Wang ,

Yue Wang ,

Yuanchang Yue ,

Yu Wang ,

Yanling Wang ,

Yan Wang ,

Xijun Liu ,

Wenmeng Yu ,

Weihan Wang ,

Wei Li ,

Shuaiqi Duan ,

Sheng Yang ,

Ruiliang Lv ,

Mingdao Liu ,

Lihang Pan ,

Ke Ning ,

Junhui Ji ,

Jinjiang Wang ,

Jing Chen ,

Jiazheng Xu ,

Jiale Zhu ,

Jiale Cheng ,

Ji Qi ,

Guobing Gan ,

Guo Wang ,

Cong Yao ,

Zijun Dou ,

Zihao Zhou ,

Zihan Wang ,

Zhiqi Ge ,

Zhijie Li ,

Zhenyu Hou ,

Zhao Xue ,

Zehui Wang ,

Zehan Qi ,

Zehai He ,

Yutao Zhang ,

Yusen Liu ,

Yukuo Cen ,

Yuchen Li ,

Yuan Wang ,

Yu Yang ,

Yongbin Liu ,

Yijian Lu ,

Yifan Xu ,

Yanzi Wang ,

Yanxiao Zhao ,

Yanfeng Wang ,

Yadong Xue ,

Yabo Xu ,

Xinyu Zhang ,

Xinyu Liu ,

Xiao Liu ,

Wenyi Zhao ,

Wenkai Li ,

Tianyu Tong ,

Tianshu Zhang ,

Shudan Zhang ,

Shengdong Yan ,

Qinkai Zheng ,

Mingde Xu ,

Licheng Bao ,

lat Long long ,

Jiaxing Xu ,

Jiaxin Fan ,

Jiawen Qian ,

Jiali Chen ,

Jiahui Lin ,

Jiadai Sun ,

Haozhi Zheng ,

Haoran Wang ,

Haochen Li ,

Hanyu Liu ,

Han Xu ,

Fan Yang ,

Dan Zhang ,

Da Yin ,

Chuangxin Zhao ,

Chengcheng Wu ,

Boyan Shi ,

Bowen Lv ,

Bowei Jia ,

Bo Li ,

Bin Chen ,

Baoxu Wang ,

Peng Zhang ,

Debing Liu ,

Bin Xu ,

Juanzi Li ,

Minlie Huang ,

Yuxiao Dong ,

Jie Tang

热度 219

2026年04月29日

简介

我们推出了GLM-5V-Turbo，这是迈向面向多模态智能体的原生基础模型的重要一步。随着基础模型日益部署于真实应用场景中，智能体能力不仅取决于语言推理能力，更依赖于对图像、视频、网页、文档、图形用户界面（GUI）等异构环境的感知、理解与交互能力。GLM-5V-Turbo正是围绕这一目标构建：多模态感知被深度融入推理、规划、工具调用与执行等核心环节，而非仅作为附加于语言模型之上的辅助接口。本报告系统总结了GLM-5V-Turbo在模型架构设计、多模态训练、强化学习、工具链扩展以及与智能体框架集成等关键方向上的主要改进。这些进展使其在多模态编程、视觉化工具调用及基于框架的智能体任务中展现出卓越性能，同时仍保持业界领先的纯文本编程能力。更重要的是，我们的研发实践为构建多模态智能体提供了切实可行的经验启示，凸显了多模态感知的核心地位、分层优化策略的必要性，以及端到端可靠性验证的关键作用。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

现有基础模型（如纯语言模型）在真实世界代理（agentic）场景中受限于单模态感知能力，难以原生支持对图像、视频、网页、GUI等异构多模态上下文的感知、理解与行动。论文试图验证：将多模态感知深度内嵌为推理、规划、工具使用与执行的核心组件（而非附加接口），能否构建更鲁棒、通用的多模态代理基础模型。
关键思路

提出‘感知即推理’（Perception-as-Reasoning）范式：GLM-5V-Turbo 不采用传统两阶段架构（视觉编码器→语言模型适配器），而是通过统一的多模态注意力机制与分层tokenization，使视觉特征直接参与符号化推理链；结合多阶段强化学习（视觉指令微调→工具交互RL→端到端任务闭环优化），实现感知、决策与动作的联合优化。
其它亮点

1）在MM-CodingBench、VisToolBench和AgentBench上显著超越GLM-4V、Qwen2-VL及LLaVA-OneVision；2）保留98.7%的HumanEval文本编码性能，证明多模态增强未损害核心语言能力；3）开源完整训练代码、工具链（支持截图OCR、网页DOM解析、GUI控件定位）及轻量化推理引擎；4）首次引入‘层级验证协议’（HVP），对多步视觉-工具-代码执行进行细粒度轨迹回溯与错误归因；5）值得深入的方向：跨模态记忆机制、低延迟视觉token流式生成、面向物理世界的具身感知对齐。
相关研究

Qwen2-VL: A Strong Open-Source Multimodal LLM (2024); LLaVA-OneVision: End-to-End Visual Instruction Tuning for Multimodal Agents (2024); InternVL 2: Scaling Up Vision-Language Understanding (2024); ToolLLaMA: Facilitating Large Language Models to Master 1600+ Real-world APIs (2023); Voyager: An Open-Ended Embodied Agent with Large Language Models (2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问