- 简介Vision Transformers(ViTs)通过利用注意力机制处理图像补丁作为标记,在各种图像分类任务中取得了显着的性能。然而,ViTs的高计算和内存需求在资源受限的环境下部署时面临重大挑战。本文介绍了ViT-1.58b,这是一种新颖的1.58位量化ViT模型,旨在大幅减少内存和计算开销,同时保持竞争性能。ViT-1.58b采用三值量化,通过将权重限制为{-1, 0, 1}并将激活量化为8位精度,来优化效率和准确性之间的平衡。我们的方法确保了内存和计算方面的高效扩展。在CIFAR-10和ImageNet-1k上的实验表明,ViT-1.58b保持了与全精度ViT相当的准确性,同时显著降低了内存使用和计算成本。本文强调了极端量化技术在开发可持续的AI解决方案方面的潜力,并为关于实际应用中高效模型部署的广泛讨论做出了贡献。我们的代码和权重可在https://github.com/DLYuanGod/ViT-1.58b上获得。
-
- 图表
- 解决问题本文旨在解决Vision Transformers (ViTs)在计算和内存需求方面过高的问题,提出了一种新的极端量化技术ViT-1.58b,以降低模型的内存和计算开销。
- 关键思路ViT-1.58b采用三值量化的方法,将权重限制为{-1, 0, 1},将激活量化为8位精度,以实现内存和计算的高效扩展。
- 其它亮点实验结果表明,ViT-1.58b在CIFAR-10和ImageNet-1k数据集上的表现与全精度的ViT相当,但内存和计算成本显著降低。该论文的代码和权重已经开源。
- 最近的研究主要集中在如何提高模型的计算和内存效率方面,例如Binarized Neural Networks (BNNs)和Quantized Neural Networks (QNNs)等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流