- 简介本文介绍了一种名为T-MAC的创新性查找表(LUT)方法,旨在在CPU上高效地进行低位LLM(即量化权重LLM)推理。T-MAC直接支持低精度权重和高精度激活的mpGEMM,而同时消除了所需的乘法和加法。具体来说,T-MAC将传统的数据类型中心乘法转换为按位表查找,并实现了统一和可扩展的mpGEMM解决方案。我们基于LUT的内核可线性扩展到权重位宽。在Llama和BitNet模型上评估,T-MAC相比于llama.cpp,吞吐量提高了最多4倍,能耗降低了70%。对于BitNet-b1.58-3B,T-MAC在M2-Ultra上单核心的标记生成吞吐量为30个标记/秒,8个核心为71个标记/秒,在树莓派5等低端设备上为11个标记/秒,这显著超过了成年人的平均阅读速度。T-MAC采用LUT计算范例,为在资源受限的边缘设备上实现低位LLM的实际部署铺平了道路。该系统在https://github.com/microsoft/T-MAC上开源。
- 图表
- 解决问题如何在资源受限的边缘设备上实现低比特量化的大型语言模型(LLMs)的高效推理?
- 关键思路T-MAC是一种基于查找表(LUT)的方法,直接支持低比特量化的LLMs的混合精度矩阵乘法(mpGEMM)推理,避免了权重去量化的间接方式,同时减少了所需的乘法和加法。
- 其它亮点T-MAC在低比特Llama和BitNet模型上的实验表明,相比于现有的方法,可以提高多达4倍的吞吐量和70%的能量消耗降低。T-MAC的LUT内核可以线性扩展到权重位宽。该系统已经开源。
- 最近的相关研究包括Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference和HAQ: Hardware-Aware Automated Quantization with Mixed Precision。
沙发等你来抢
去评论
评论
沙发等你来抢