- 简介我们推出了GLM-4.5,这是一款开源的混合专家(Mixture-of-Experts,MoE)大语言模型,总参数量为3550亿,激活参数量为320亿。该模型采用了支持“思考模式”和“直接回答模式”的混合推理方法。通过对23万亿个token进行多阶段训练,并结合专家模型迭代与强化学习的全面后期训练,GLM-4.5在代理(agentic)、推理和代码(ARC)任务中表现出色,在TAU-Bench上得分为70.1%,在AIME 24上得分为91.0%,在SWE-bench Verified上得分为64.2%。相比一些竞品模型,GLM-4.5的参数量少得多,但在所有评估模型中整体排名第三,在代理类基准测试中排名第二。为了推动推理与代理型AI系统的研究,我们公开发布了GLM-4.5(3550亿参数)以及一个精简版本GLM-4.5-Air(1060亿参数)。相关代码、模型及更多信息请访问:https://github.com/zai-org/GLM-4.5。
-
- 图表
- 解决问题论文旨在解决大语言模型在推理和代理任务中性能不足的问题,同时尝试通过参数效率高的方法实现强大的模型表现。这是一个当前人工智能领域的重要问题,尤其是在如何在降低计算资源需求的同时保持高性能。
- 关键思路论文提出了一种基于混合专家(MoE)架构的新型大语言模型GLM-4.5,其具有3550亿总参数但每次仅激活320亿参数。其关键创新在于引入了一种混合推理方法,支持“思考”模式和“直接响应”模式。此外,论文通过多阶段训练和强化学习策略进一步提升了模型在推理、代理和编码任务上的表现。
- 其它亮点1. GLM-4.5在TAU-Bench、AIME 24和SWE-bench Verified上分别取得了70.1%、91.0%和64.2%的优异成绩 2. 尽管参数量少于多个竞争模型,GLM-4.5在所有评估模型中排名第三,在代理基准测试中排名第二 3. 推出轻量版本GLM-4.5-Air(1060亿参数),便于研究和部署 4. 论文基于23万亿token进行多阶段训练,并采用专家模型迭代和强化学习进行后训练 5. 模型和代码已开源(https://github.com/zai-org/GLM-4.5),有助于推动社区研究
- 1. DeepSeekMoE: A Stale-Gradient Tolerant Mixture-of-Experts Training Approach 2. Switch Transformers: Scaling and Serving with Increased Sparsity 3. GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding 4. MoE-BERT: Training Dense-to-Sparse Megamodules with Mixture of Experts 5. GLM-130B: An Open Bilingual Pre-trained Model for 100+ Languages
- 1
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流