70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float

向作者提问

NEW

简介

大规模语言模型（LLMs）在规模上迅速增长，为在资源受限的硬件上高效部署带来了显著挑战。本文中，我们提出了动态长度浮点压缩框架（DFloat11），该框架能够在不改变模型输出的前提下（即输出与原模型逐比特完全一致），将LLM的规模减少30%。DFloat11的设计灵感来源于LLM权重在BFloat16表示下的低熵特性，这揭示了现有存储格式中存在的显著效率问题。通过应用熵编码技术，DFloat11根据权重出现的频率为其分配动态长度编码，从而实现了接近信息理论最优的无损压缩。为了支持动态长度编码下的高效推理，我们开发了一个自定义的GPU内核以实现快速在线解压缩。我们的设计包含以下特点：(i) 将内存密集型查找表（LUTs）分解为紧凑型LUTs，使其能够驻留在GPU的SRAM中；(ii) 采用两阶段内核设计，通过轻量级辅助变量协调线程的读写位置；(iii) 在Transformer块级别进行解压缩，以最小化延迟。我们在包括Llama-3.1、Qwen-2.5和Gemma-3在内的最新模型上进行了实验，验证了DFloat11能够在保持逐比特精确输出的同时实现约30%的模型规模缩减。与另一种可能的替代方案（即将未压缩模型的部分内容卸载到CPU以满足内存限制）相比，DFloat11在生成标记时的吞吐量提高了1.9至38.8倍。在固定GPU内存预算的情况下，DFloat11能够支持比未压缩模型长5.3至13.17倍的上下文长度。特别值得一提的是，我们的方法能够在配备8个80GB GPU的单节点上实现对Llama-3.1-405B（一个大小为810GB的模型）的无损推理。我们的代码和模型可在以下链接获取：https://github.com/LeanModels/DFloat11。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

该论文试图解决在资源受限硬件上高效部署超大规模语言模型（LLM）的问题。随着LLM规模的快速增长，其存储和计算需求对硬件资源提出了严峻挑战。这是一个持续受到关注的重要问题，但通过无损压缩方法来优化模型大小并保持推理精度的研究仍相对较少。
关键思路

论文提出了一种名为DFloat11的动态长度浮点无损压缩框架，利用熵编码技术根据权重频率分配动态长度编码，从而将LLM的大小减少约30%，同时确保输出与原始模型完全一致。相比传统的BFloat16格式，DFloat11显著提高了存储效率，并通过自定义GPU内核实现了高效的在线解压缩，包括分解内存密集型查找表、两阶段内核设计和块级解压缩策略。
其它亮点

实验验证了DFloat11在多个最新模型（如Llama-3.1、Qwen-2.5和Gemma-3）上的有效性，表明其能够在不损失精度的情况下实现30%的模型尺寸缩减。此外，与卸载部分模型到CPU的方法相比，DFloat11提升了1.9-38.8倍的生成吞吐量，并支持更长的上下文长度（5.3-13.17倍）。特别值得一提的是，该方法成功使Llama-3.1-405B（810GB）能够在单节点8x80GB GPU上进行无损推理。代码和模型已开源至GitHub，为未来研究提供了坚实基础。
相关研究

近期相关工作包括：1) Sparse MoE架构（如Google的Switch Transformer），通过稀疏激活减少计算需求；2) 量化方法（如4-bit或8-bit量化），以牺牲少量精度换取存储效率；3) 模型剪枝技术，移除冗余参数以减小模型尺寸。其他类似研究还包括Facebook的PaQ系列（Precision-aware Quantization）和NVIDIA的TensorRT优化工具。这些方法主要集中在有损压缩或特定硬件加速，而DFloat11则专注于无损压缩且兼容现有硬件。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问