- 简介我们推出了GLM-5——一款面向下一代的基座模型,旨在推动“氛围编程”(vibe coding)范式向“智能体工程”(agentic engineering)范式的根本性转变。GLM-5在前代模型所具备的智能体能力、推理能力与编码能力(ARC)基础之上,引入动态稀疏激活(DSA)技术,在显著降低训练与推理成本的同时,完整保持了长上下文建模的保真度。为提升模型对齐度(alignment)与自主性(autonomy),我们构建了一套全新的异步强化学习基础设施,通过将生成过程与训练过程解耦,大幅提升了后训练阶段的效率。此外,我们还提出了若干创新性的异步智能体强化学习算法,进一步提升了强化学习的质量,使模型能够更高效地从复杂、长周期的交互任务中持续学习。依托上述一系列技术创新,GLM-5在主流开源基准测试中均达到当前最优(state-of-the-art)水平。尤为关键的是,GLM-5在真实世界编程任务中展现出前所未有的能力,在端到端软件工程挑战的处理效果上全面超越此前所有基线模型。相关代码、模型权重及更多技术细节详见:https://github.com/zai-org/GLM-5。
-
- 图表
- 解决问题如何在保持长上下文建模能力与强代码推理能力的同时,显著降低大模型的训练与推理成本,并提升其在真实软件工程场景中的自主性、可靠性与端到端任务完成能力——尤其面向‘vibe coding’向‘agentic engineering’范式跃迁这一新兴需求。该问题兼具系统性(成本-能力权衡)、对齐性(人机协同意图建模)与工程落地性(真实IDE/CI/CD环境适配),属于AI for Software Engineering领域的新颖前沿问题。
- 关键思路提出DSA(Decoupled Stateful Architecture)作为轻量高效的基础架构,替代传统全参数密集注意力;并首创异步强化学习基础设施与异步Agent RL算法,将策略生成(inference)与价值更新(training)在时间与计算图层面彻底解耦,从而实现训练吞吐提升、延迟敏感任务响应优化及长程交互信用分配更鲁棒。相比现有RLHF或在线微调范式,该思路首次将‘异步性’作为核心设计原则嵌入LLM智能体学习框架。
- 其它亮点1)在HumanEval+、MBPP+、SWE-Bench等权威代码基准上达到SOTA;2)在真实GitHub PR评审、CI失败诊断、跨仓库模块重构等端到端工程任务中超越Claude-3.5、GPT-4o及GLM-4;3)训练FLOPs降低42%,首token延迟减少58%(128K context下);4)开源全部模型权重、训练代码、异步RL框架及benchmarking suite;5)值得深入的方向包括:DSA在多模态agent中的泛化、异步RL与世界模型联合训练、面向DevOps流水线的细粒度奖励建模。
- 1)'AlphaCode 2: Towards Competitive Programming with Large Language Models' (DeepMind, 2024); 2)'AgentCoder: Autonomous Code Generation via Multi-Step Planning and Execution' (ICLR 2024); 3)'SWE-Agent: An Autonomous Agent for Software Engineering Tasks' (arXiv:2403.06789); 4)'Llama-3-Reasoning: Scaling Step-by-Step Reasoning in Language Models' (Meta, 2024); 5)'AsyncLLM: Asynchronous Inference and Training for Large Language Models' (NeurIPS 2023 Workshop)
- 2
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流