- 简介大语言模型(LLMs)中极端的激活异常值会严重降低量化效果,阻碍模型在设备上的高效部署。尽管通道相关的运算和自适应梯度缩放被认为是导致这一问题的主要原因,但在实际应用中缓解这些问题仍然具有挑战性。我们提出了“异常值安全预训练”(Outlier-Safe Pre-Training,OSP)这一实用指南,它通过主动预防异常值的形成,而不是依赖于事后补救。OSP 包含三项关键技术:(1)Muon 优化器,在保持训练效率的同时消除了特权基底;(2)单尺度 RMSNorm(Single-Scale RMSNorm),防止通道间的放大效应;(3)可学习的嵌入投影(learnable embedding projection),重新分配来源于嵌入矩阵的激活幅度。我们通过在一个万亿 token 数据上训练一个 14 亿参数的模型来验证 OSP 的有效性,这是首个在训练过程中未产生此类异常值的工业级规模语言模型。在激进的 4 比特量化设置下,我们的 OSP 模型在 10 项基准测试中平均得分达到 35.7(相比之下,使用 Adam 训练的模型得分为 26.5),训练开销仅为 2%。令人惊讶的是,OSP 模型表现出接近零的超额峰度(0.04),而标准模型则呈现极端值(1818.56),这从根本上改变了 LLM 的量化行为。我们的研究表明,异常值并非 LLM 固有的特性,而是训练策略所导致的结果,从而为更高效的 LLM 部署铺平了道路。源代码和预训练模型可在以下链接获取:https://github.com/dmis-lab/Outlier-Safe-Pre-Training。
- 图表
- 解决问题论文旨在解决大型语言模型(LLMs)中存在的极端激活异常值问题,这些异常值严重降低了量化性能,阻碍了模型在设备上的高效部署。这一问题虽然被广泛认知,但目前的解决方案仍面临挑战,尤其是在实际应用中。
- 关键思路论文提出了一种名为Outlier-Safe Pre-Training (OSP)的方法,通过主动预防异常值的形成,而不是依赖于事后的缓解措施。其核心创新包括:Muon优化器、Single-Scale RMSNorm和可学习的嵌入投影。相比传统方法,这种方法从根本上改变了训练策略以减少异常值的产生。
- 其它亮点1. 使用Muon优化器消除特权基底,同时保持训练效率。 2. 引入Single-Scale RMSNorm以防止通道间的放大效应。 3. 通过可学习的嵌入投影重新分配激活幅度。 4. 实验表明,在1.4B参数模型上训练1万亿token后,该方法在4位量化下取得了显著的性能提升。 5. 与Adam训练的模型相比,OSP模型在10个基准测试中的平均得分从26.5提高到35.7。 6. 训练开销仅增加2%,并且模型表现出接近零的超额峰度(0.04),而标准模型为1818.56。 7. 代码和预训练检查点已开源,地址为https://github.com/dmis-lab/Outlier-Safe-Pre-Training。
- 1. Adaptive Gradient Scaling for Quantization-Aware Training 2. Channel-Wise Normalization Techniques in Deep Learning Models 3. Efficient On-Device Deployment of Large Language Models via Quantization 4. RMSNorm: Root Mean Square Layer Normalization for Improved Training Stability 5. Optimization Techniques for Reducing Activation Outliers in Transformer-Based Architectures
沙发等你来抢
去评论
评论
沙发等你来抢