Bridging the Gap Between Promise and Performance for Microscaling FP4 Quantization

向作者提问

NEW

简介

最近，NVIDIA和AMD的GPU所支持的硬件加速微缩放4位浮点格式（如MXFP4和NVFP4）有望彻底改变大语言模型（LLM）的推理过程。然而，这些格式的实际效益尚未得到证实。本文首次对MXFP4和NVFP4在训练后量化中的应用进行了全面研究，揭示了其理论潜力与实际性能之间的差距。我们的分析表明，当前最先进的方法在处理FP4时面临两大关键问题：（1）NVFP4的组尺寸过小，从理论上削弱了传统异常值缓解技术的效果；（2）MXFP4采用的幂指数缩放量化方式会引入较大误差，从而严重损害模型精度。为弥合这一差距，我们提出了Micro-Rotated-GPTQ（MR-GPTQ），这是经典GPTQ量化算法的一种改进版本，通过引入分块Hadamard变换和针对特定格式的优化策略，使量化过程更适配FP4的独特特性。我们还设计了一组高性能GPU内核，通过将旋转操作融合到权重中，并实现激活值的快速在线计算，使MR-GPTQ格式的额外开销几乎可以忽略不计。实验结果显示，在NVIDIA B200上，MR-GPTQ相比FP16可实现最高3.6倍的逐层加速和2.2倍的端到端加速；在RTX5090上则分别达到6倍和4倍。大量实证评估表明，MR-GPTQ在精度上达到或超过了当前最先进的方法，显著提升了MXFP4的表现，使其精度接近NVFP4。我们得出结论：尽管FP4并非自动优于INT4，但像MR-GPTQ这样针对特定格式设计的方法，能够开辟全新的精度与性能权衡前沿。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决当前硬件加速的4位浮点格式（如MXFP4和NVFP4）在大语言模型推理中实际性能未达预期的问题，尤其是后训练量化下精度显著下降的挑战。尽管FP4格式承诺提升效率，但现有方法难以充分发挥其潜力，这是一个新兴且尚未充分探索的问题。
关键思路

提出Micro-Rotated-GPTQ（MR-GPTQ），一种专为FP4格式设计的GPTQ变体，通过块级Hadamard变换和格式特定优化来适配FP4的特性。关键创新在于利用旋转融合将变换融入权重，并支持激活的快速在线计算，从而克服NVFP4小分组破坏传统异常值缓解、以及MXFP4幂律缩放导致高误差的问题。
其它亮点

在NVIDIA B200上实现最高3.6倍层间和2.2倍端到端加速，在RTX5090上达到6倍层间和4倍端到端加速，相比FP16显著提升效率；实验覆盖多种主流LLM，在多个基准（如WikiText、PTB、C4）上验证了MR-GPTQ在保持甚至超越现有SOTA精度的同时实现高效推理；作者提供了高性能GPU内核支持，几乎无额外开销；代码已开源，为后续研究奠定基础；该工作揭示了专用量化格式设计的重要性，未来可扩展至其他低比特浮点格式。
相关研究

近期相关研究包括：'GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers'（ICLR 2023）；'AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration'（ICML 2023）；'SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models'（ICML 2023）；'LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale'（arXiv 2022）；以及关于FP4格式的初步探索如'MXFP4: A Floating Point Format for Deep Learning'（MLSys 2023）。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问