ICLR 2022丨加速无数据量化数万倍，上海交大&微软提出无数据场景下毫秒级量化方法SQuant

神经网络模型量化是提高神经网络计算效率的一个有效方法，它通过将模型参数转换成内存开销更小的低精度数据格式来减少计算与内存开销。经典的神经网络量化方法通常需要经过一个精调的训练过程，以保证量化后的模型精度。然而，出于数据和隐私安全的考虑，许多应用场景无法获得精调所需训练数据，因此无数据（data-free）场景下的量化算法成为当下研究热点之一。现有的无数据量化方案通常需要生成伪数据，然后利用伪数据进行训练后量化（Post-train quantization, PTQ）和量化感知训练（Quantization-aware training, QAT）。这两种方法本质上都依赖了生成数据，需要大量的训练时间和成本去生成数据、训练网络。

近日，来自上海交通大学以及微软亚洲研究院的研究者提出了一种无需数据的即时神经网络模型量化框架SQuant。该框架无需额外的训练数据，也不需要生成数据。不需要训练，甚至不需要了解模型架构，能够在毫秒级快速量化网络的同时，保证神经网络的高识别精度。对比现有的无数据量化方法，实现了更高的精度并使量化过程加速数万倍，甚至可以在推理设备上部署。该工作已被ICLR 2022会议接收，代码已经开源。

论文地址：https://openreview.net/forum?id=JXhROKNZzOc

代码地址：https://github.com/clevercool/SQuant

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ICLR 2022丨加速无数据量化数万倍，上海交大&微软提出无数据场景下毫秒级量化方法SQuant

评论列表

评论