Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

2025年09月27日
  • 简介
    最近,NVIDIA和AMD的GPU所支持的硬件加速微缩放4位浮点格式(如MXFP4和NVFP4)有望彻底改变大语言模型(LLM)的推理过程。然而,这些格式的实际效益尚未得到证实。本文首次对MXFP4和NVFP4在训练后量化中的应用进行了全面研究,揭示了其理论潜力与实际性能之间的差距。我们的分析表明,当前最先进的方法在处理FP4时面临两大关键问题:(1)NVFP4的组尺寸过小,从理论上削弱了传统异常值缓解技术的效果;(2)MXFP4采用的幂指数缩放量化方式会引入较大误差,从而严重损害模型精度。为弥合这一差距,我们提出了Micro-Rotated-GPTQ(MR-GPTQ),这是经典GPTQ量化算法的一种改进版本,通过引入分块Hadamard变换和针对特定格式的优化策略,使量化过程更适配FP4的独特特性。我们还设计了一组高性能GPU内核,通过将旋转操作融合到权重中,并实现激活值的快速在线计算,使MR-GPTQ格式的额外开销几乎可以忽略不计。实验结果显示,在NVIDIA B200上,MR-GPTQ相比FP16可实现最高3.6倍的逐层加速和2.2倍的端到端加速;在RTX5090上则分别达到6倍和4倍。大量实证评估表明,MR-GPTQ在精度上达到或超过了当前最先进的方法,显著提升了MXFP4的表现,使其精度接近NVFP4。我们得出结论:尽管FP4并非自动优于INT4,但像MR-GPTQ这样针对特定格式设计的方法,能够开辟全新的精度与性能权衡前沿。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决当前硬件加速的4位浮点格式(如MXFP4和NVFP4)在大语言模型推理中实际性能未达预期的问题,尤其是后训练量化下精度显著下降的挑战。尽管FP4格式承诺提升效率,但现有方法难以充分发挥其潜力,这是一个新兴且尚未充分探索的问题。
  • 关键思路
    提出Micro-Rotated-GPTQ(MR-GPTQ),一种专为FP4格式设计的GPTQ变体,通过块级Hadamard变换和格式特定优化来适配FP4的特性。关键创新在于利用旋转融合将变换融入权重,并支持激活的快速在线计算,从而克服NVFP4小分组破坏传统异常值缓解、以及MXFP4幂律缩放导致高误差的问题。
  • 其它亮点
    在NVIDIA B200上实现最高3.6倍层间和2.2倍端到端加速,在RTX5090上达到6倍层间和4倍端到端加速,相比FP16显著提升效率;实验覆盖多种主流LLM,在多个基准(如WikiText、PTB、C4)上验证了MR-GPTQ在保持甚至超越现有SOTA精度的同时实现高效推理;作者提供了高性能GPU内核支持,几乎无额外开销;代码已开源,为后续研究奠定基础;该工作揭示了专用量化格式设计的重要性,未来可扩展至其他低比特浮点格式。
  • 相关研究
    近期相关研究包括:'GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers'(ICLR 2023);'AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration'(ICML 2023);'SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models'(ICML 2023);'LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale'(arXiv 2022);以及关于FP4格式的初步探索如'MXFP4: A Floating Point Format for Deep Learning'(MLSys 2023)。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问