现实世界中的任务和工作天然是多模态的,人类每天都在同时处理文字、图表、截图、网页等不同类型的信息。


如今,基础模型也正从语言理解转向面向真实世界的多模态 Agentic 能力。越来越多的任务,不再只是要求模型在文本中完成推理,还需要它理解图像、视频、网页、文档以及图形用户界面(GUI),并在此基础上正确完成规划与行动。


GLM-5V-Turbo 作为新一代多模态基座模型,在保持纯文本场景下编程、推理、工具调用等能力的前提下,在多模态 Coding、Tool Use、GUI Agent 等方面取得了极具竞争力的性能。模型效果及应用案例详见:刚刚,智谱发布GLM-5V-Turbo:任意图像,皆为代码


日前,智谱(Z.ai)和清华大学团队发布了 GLM-5V-Turbo 技术报告,分享了这一多模态 Coding 基座模型背后的技术细节,以及一些更具普遍意义的 Agent 模型开发经验。我们对技术报告做了一些解读,分享给大家,希望对大家有所帮助。


Image

技术报告链接:https://arxiv.org/pdf/2604.26752


GLM-5V-Turbo 是怎样练成的?

GLM-5V-Turbo 的核心技术改进包括以下 4 个方面:新视觉编码器 CogViT、对大规模基础设施友好的多模态多 token 预测 MMTP、覆盖感知-推理-Agent 的广覆盖联合训练,以及一套面向大规模多模态强化学习(RL)的基础设施。


1.CogViT:参数高效的视觉编码器

我们从零构建了面向多模态感知和下游 Agent 任务的视觉编码器:CogViT。我们采用两阶段预训练:


第一阶段使用基于蒸馏的掩码图像建模,让学生 ViT 在 224×224 输入、35% 掩码率下重建被遮挡区域,并同时对齐两个教师模型的特征(SigLIP2 提供语义表示,DINOv3 提供纹理特征)。训练数据按“质量感知”混合,包括 80% 高质量自然图像、10% 指令跟随数据、10% 科学图像。优化器则使用 Muon,并引入 QK-Norm 在注意力计算前对 Query 和 Key 做归一化,缓解了 logit 爆炸、提升了大规模训练稳定性。


第二阶段切换为对比式图文预训练,把视觉与文本特征对齐到同一嵌入空间。该阶段共有 3 处关键升级:用 NaFlex 方案替换固定 224×224 输入,支持变尺寸、保留原始长宽比;用 sigmoid 形式的 SigLIP loss 把全局批次扩到 64K,并配合双向分布式实现;使用 80 亿规模的中英文双语图文语料,提升跨语言理解能力。


尽管参数规模为 403M,但在通用识别、细粒度理解和空间感知上同时表现良好,ImageNet-1K 零样本分数为 83.5、38 项 CLIP Bench 分数平均为 70.4、14 项通用目标 Bench 分数平均为 45.1,在多数指标上超过 SigLIP2-SO (427M) 和 DFN-H (632M)。


Image

图|CogViT 与其他 SOTA 视觉编码器的性能对比


2.MMTP:让多token预测适配多模态

为在多模态场景中保留训练和推理效率,研究团队扩展了多 Token 预测(MTP),提出了“多模态多 Token 预测”(MMTP)。


在纯文本的 MTP 中,前缀 token 可以通过 ID 直接输入到 MTP head 并经过词嵌入层,但一旦输入中混有视觉 token,就要回答一个核心问题:图像 token 该如何传给 MTP head?


为此,研究团队系统地对比了 3 种方案:(1)直接把 LLM 主干的视觉嵌入传给 MTP head;(2)在 MTP head 输入端把所有视觉 token 掩码掉,退化为纯文本 MTP;(3)保留视觉位置信息,但把所有视觉 token 替换成一个共享可学习的图像特殊 token。


Image

图|MMTP 设计,左下角为方案 1 与方案 3 的训练损失曲线对比,方案 3 实现了更低的损失


GLM-5V-Turbo 则采用了第 3 种方案。相比直接传视觉嵌入,图像占位符方案不需要在流水线并行的多个 stage 之间传递视觉 embedding,显著降低了通信复杂度;在 0.5B 模型上的消融实验显示,该方案训练损失更低、收敛更稳。研究团队的解释是 MTP head 通常较轻,难以有效吸收分布上与文本差异显著的视觉表示,统一形式的占位 token 反而更易优化。同时,相比“完全掩码”方案,这种设计天然兼容序列并行和上下文并行,无需额外处理视觉嵌入的分区与对齐。


3.横跨感知、推理、Agent 的广覆盖训练

在预训练阶段,GLM-5V-Turbo 深度融合了视觉与语言,多模态数据涵盖世界知识、图文交错、OCR、编程、GUI、视频、多模态工具使用、空间感知、grounding、学科问题求解等多个类别,并特别加大了多模态编程数据的比例。


随后,研究团队在 30+ 任务类别下对模型进行了联合 RL 优化。相比于监督微调(SFT),RL 阶段在感知、推理和 Agent 任务上均实现了性能提升。


此外,研究团队还指出了几个值得注意的现象。


首先,相比 SFT 中常见的跨域权衡,多任务 RL 表现出更弱的跨域干扰,多个领域均可以获得稳定的增益;其次,在分布较窄、单任务 RL 容易震荡的领域里,跨域协同训练反而通过更丰富的策略分布让优化更稳定;再者,思维模式存在跨任务迁移:一个领域学到的推理行为有时能在另一个领域带来可衡量的收益。


4.大规模多模态 RL 基础设施

研究团队表示,多任务多模态 RL 对训练系统提出了更严苛的要求,prompt 与回复长度差异大、任务有单步也有多步、每个任务可能挂着不同的规则验证器或模型验证器。


为此,GLM-5V-Turbo 团队从 4 个维度重构了训练栈。


统一任务与奖励抽象:构建 VLM RL Gym 提供统一的环境接口;引入独立奖励系统集中编排多个验证器,规则验证器本地同步执行,模型验证器通过 API 异步调用,输出按可配置策略聚合。每条样本带数据源标签,便于按来源汇报奖励与 pass@k。


全管线解耦与异步:rollout 推理、奖励评估、批(batch)构建、权重传输四阶段最大化重叠。为推理请求注册完成回调函数,单条结束就触发奖励计算,避免被长尾请求拖累;参考模型(reference model)的参数常驻 CPU 内存,在前向传播前异步预取到 GPU、用完即释放。系统还支持基于完成数或时间阈值的提前 abort,被 abort 的 prompt 可缓存复用。


面向多模态的细粒度内存管理:传统重计算策略主要面向纯文本设计,难以应对多模态输入带来的内存压力。研究团队为 ViT 与 projector 模块设计独立的内存管理策略,结合细粒度定向重计算与 CPU offload,避免激活内存随图像数量线性膨胀。


拓扑感知的视觉输入分区:常规实现中,每个 rank 要先持有完整 patch 张量再重新分发,造成不必要的内存与通信开销。研究团队把上下文并行(CP)和张量并行(TP)策略前移到数据加载阶段,与下采样组对齐分组边界,再通过异步 all-to-all 精确传输;将大型 Python 对象从 GPU 通信路径搬到 CPU 路径,实测减少了约 7GB 的 GPU 通信缓存开销。对 rollout 阶段产生的变长序列,还在序列长度和 ViT token 数两个维度上联合做 bin-packing。


多模态 Agent 能力与生态

在模型之上,研究团队继续扩展了 GLM-5V-Turbo 的多模态工具链、Agent 框架集成、官方 Skills 等。


1.多模态工具链:让Agent用图像思考

GLM-5V-Turbo 配备了一套完整的多模态工具,覆盖通用识别(植物、地点、人物)、多模态搜索(文本搜索、以图搜图、相似图搜索、学术搜索)、浏览器工具、图像处理(裁剪、绘制 2D/3D 边界框、绘制点标注、视频对象跟踪)、Web 与 PPT 创建,以及面向深度研究的工具集。


Image

图|根据应用场景和工具集划分的多模态工具与处理功能分类


工具链扩展直接体现在搜索类基准上:MMSearch-Plus 分数为 30.0(实现近 8 倍提升)、BrowseComp-VL 为 51.9、ImageMining 为 30.7,整体在多模态深度搜索类任务上与 Kimi K2.5、Claude Opus 4.6 处于同一水平,部分指标实现超越。


2.与Claude Code、AutoClaw的框架集成

GLM-5V-Turbo 还能作为认知核心嵌入 Claude Code、AutoClaw 等外部 Agent 框架。Claude Code 负责终端环境与本地文件系统的执行逻辑,AutoClaw 提供浏览器与 GUI 自动化的"双手",GLM-5V-Turbo 在其中承担视觉-语言控制器的角色,构成完整的感知-规划-执行闭环。


3.ImageMining:以图像为入口的深度搜索基准

研究团队还推出了 ImageMining,一个专门测试“用图像思考、用图像深度搜索”能力的视觉中心基准。与传统视觉问答(VQA)不同,ImageMining 要求模型通过多步工具调用主动从图像中“挖”出线索,例如先做局部裁剪或放大细节,再以此构造搜索 Query。


ImageMining 共包含 217 道人工整理的测试题,覆盖社交、娱乐、商品、地点、富文本、自然、科学领域,对应通用识别、时空推理、事件推理、富文本推理、视觉搜索推理任务。他们还在数据构建中引入了 Visual Jump 约束(WEB_VISUAL),强制中间推理步骤必须涉及视觉跳转,避免模型走文本捷径或依赖参数知识。


4.多模态深度研究与内容创作

GLM-5V-Turbo 支持从异构信息源出发,完成自主规划、多模态阅读、证据整合、长文合成的完整深度研究工作流,并能生成图文交织报告、深度研究转 PPT、文档风格博客/结构化笔记的输出。


5.官方skills

围绕 OpenClaw、AutoClaw 和 Claude Code 等框架,研究团队还提供了 15 项官方 skills,包括:原生 skills(如 PDF 转网页/PPT、网页复刻、PRD 转应用)、外部工具 skills(如图像描述、视觉 grounding、文档写作)以及基于专用模型 GLM-OCR、GLM-Image 的专项技能,并配有统一的 master skill 入口。


实验结果

GLM-5V-Turbo 与 Kimi K2.5、Claude Opus 4.6 在多模态任务上的对比如下图,可以看到模型在多模态工具使用方面实现全面领先,在多模态编程 Design2Code 这类经典基准上取得了明显领先的成绩。


Image

图|GLM-5V-Turbo 在多模态编程、工具调用以及 GUI Agent 基准测试中的评估结果


在文本 Coding 与 claw Agent 方面,GLM-5V-Turbo 实现了与纯文本基座 GLM-5-Turbo 近乎同等的性能。其中,GLM-5V-Turbo 的 CC-Backend 分数从 20.5 提升到 22.8、CC-RepoExploration 分数从 68.9 提升到 72.2;同时,虽与 Claude Opus 4.6 仍有差距,但 GLM-5V-Turbo 在 PinchBench、ClawEval、ZClawBench 上超过了 GLM-5-Turbo 和 Kimi K2.5。


Image

图|GLM-5V-Turbo 在文本 Coding 与 claw Agent 基准测试中的评估结果


来自开发过程的 3 条设计观察

研究团队还分享了 3 条来自 GLM-5V-Turbo 开发的设计观察。


感知仍是更高级多模态能力的基石。即使 SOTA 视觉-语言模型(VLM),其在细粒度感知和空间理解上的错误仍然普遍,并会沿链路传播到下游推理、决策与执行。


在团队的实践中,多模态编程和 grounding 任务被证明是有效的感知“代理任务”,如在预训练中加入学科图像与对应 SVG 代码的配对数据,对下游 STEM 问题求解有正向收益;在 RL 阶段加强 grounding 训练,则能改善 GUI Agent 表现。


在 GUI Agent 的指令微调中,研究团队还引入了针对推理过程错误(如误读界面、错认元素、错误决策)的批评数据,明显减少了几类反复出现的感知失败模式。


Agent 能力更适合用分层优化而非单一端到端训练构建。研究团队发现,Agent 任务普遍存在环境构建昂贵、高质量数据稀缺、可靠验证困难的问题。他们在 GUI Agent 开发中构建了元素感知、GUI grounding、单步动作预测、轨迹级动作预测的多层任务体系,并在 SFT 与 RL 中同时使用,在相同资源约束下,下层任务通常更易构建、标注、验证;当下层能力尚不成熟时,仅在高层任务上训练通常难以稳定收敛。


端到端长程任务的关键不在长度,而在清晰的任务设定、可靠的结果验证和可控的评估流程。现实世界 Agent 场景往往目标欠定、执行边界模糊、结果强依赖中间决策,难以横向比较,更难变成可复用的优化信号。Vision2Web 基准把网页开发任务建立在 PRD、原型图、参考页面、资源资产的多源约束之上,并采用工作流式验证,把执行评估拆成一系列依赖步骤,便于跨系统比较与失败归因。


研究团队还提出了 Vision2Web 基准(https://arxiv.org/abs/2603.26648),把网页开发任务建立在 PRD、原型图、参考页面、资源资产的多源约束之上,并采用工作流式验证,把执行评估拆成一系列 GUI agent 和 visual judge 的依赖步骤,便于跨系统比较与失败归因。


不足与未来方向

当然,这项研究也存在一些局限性和未来挑战。


首先,Agent 策略涌现依然受限。当前 Agent 训练高度依赖人工或强过滤的冷启动轨迹,这有助于初始化,但也压缩了模型能探索的推理与动作模式空间,后续 RL 容易陷在“已有路径上的局部改进”。实验结果表明,在冷启动阶段提升轨迹多样性能部分缓解这一问题,但实现“让模型自己发现更好的策略,乃至涌现出子 Agent 分解、多 Agent 协作等更丰富的组织形式”这一更根本目标仍然遥远。


其次,多模态长程上下文管理仍是瓶颈。与文本相比,图像和视频对上下文预算的消耗大得多,长轨迹中保留全部视觉观测在工程上几乎不可行。当前许多系统的做法是直接丢弃早期视觉观测,但这会丢掉后续推理可能用到的关键信息。文本场景下成熟的“压缩历史”做法(如 Claude Code 的 auto-compact)在多模态下并不直接适用,需要保留的不只是语义内容,还包括布局、空间关系、视频中的时序变化等视觉细节。多模态原生的上下文与记忆机制依然是一个开放问题。


最后,模型将与 harness 共塑系统能力边界。Agent 系统的实际能力边界不再由模型单独决定,而由模型与 harness(任务分解、工具使用、记忆机制、验证回路)共同塑造。这意味着 harness 不再是可独立优化的外层结构,它的价值与最佳形态会随模型能力变化而变化,反过来同一模型在不同 harness 下也可能表现不同。因此,Agent 模型开发不再是单纯的模型改进问题,评估目标本身也需要随之演化。





内容中包含的图片若涉及版权问题,请及时与我们联系删除