- 简介eXmY是一种新型的数据类型,用于量化机器学习模型。它支持任意位宽和任意整数和浮点数格式。例如,它无缝支持3、5、6、7、9位格式。对于特定的位宽,比如7位,它定义了所有可能的格式,例如e0m6、e1m5、e2m4、e3m3、e4m2、e5m1和e6m0。对于非2的幂次位宽,例如5、6、7,我们创建了一种新的编码和解码方案,实现了完美的压缩、字节可寻址,并且适用于分片和向量处理。我们在C++、TensorFlow、JAX和PAX中实现了仿真、编码和解码张量和检查点的库。为了获得最佳性能,编解码器在CPU上使用SIMD指令,在TPU和GPU上使用向量指令。eXmY还是一种技术,利用张量中指数的统计分布。它可以用于量化权重、静态和动态激活、梯度、主权重和优化器状态。它可以减少内存(CPU DRAM和加速器HBM)、网络和磁盘存储和传输。它可以增加多租户和加速计算。eXmY已经在生产环境中使用了将近两年。
- 图表
- 解决问题论文提出了一种名为eXmY的新型数据类型,旨在解决机器学习模型量化中的问题,包括内存、网络和磁盘存储以及传输。该方法利用张量中指数的统计分布,可以量化权重、静态和动态激活、梯度、主权重和优化器状态。
- 关键思路eXmY支持任意位宽和任意整数和浮点格式,并为每个特定的位宽定义了所有可能的格式。对于非2的幂位宽,如5、6、7位,作者提出了一种新的编码和解码方案,实现了完美的压缩、字节可寻址性,并适用于分片和矢量处理。为了实现最佳性能,编解码器在CPU上使用SIMD指令,在TPU和GPU上使用矢量指令。
- 其它亮点论文实现了C++、TensorFlow、JAX和PAX的仿真、编码和解码张量和检查点库。作者还进行了实验,证明了eXmY可以有效地减少内存、网络和磁盘存储和传输,并提高多租户和计算加速。这项技术已经在生产中使用了近两年。
- 近期的相关研究包括QKAT、Q8BERT和Q-BERT等。
沙发等你来抢
去评论
评论
沙发等你来抢