- 简介将大型和高性能的视觉基础模型(VFMs)压缩为任意位操作(BitOPs)可以使它们部署在各种硬件上。我们建议将VFM微调为混合精度量化的超网络。可以采用基于超网络的神经架构搜索(NAS)来实现这一目的,该方法训练一个超网络,然后可以在任意硬件预算内提取子网络。然而,现有的方法在优化混合精度搜索空间和训练期间产生大量内存开销方面面临困难。为了解决这些挑战,首先,我们通过比较不同的运算符(如分辨率、特征大小、宽度、深度和位宽)的性能和BitOPs减少来研究微调VFM的有效搜索空间设计。其次,我们提出了一种内存高效的超网络训练方法,使用低秩适配器(LoRA)和渐进式训练策略。所提出的方法在最近提出的VFM“Segment Anything Model”上进行了评估,微调了分割任务。搜索出的模型在不降低性能的情况下减少了约95%的BitOPs。
-
- 图表
- 解决问题本文旨在解决将大型视觉基础模型(VFMs)压缩为任意位操作(BitOPs)以便于在各种硬件上部署的问题。
- 关键思路本文提出了一种fine-tune VFM到混合精度量化超网的方法,并采用超网的神经架构搜索(NAS)来训练超网,然后可以提取出任意硬件预算下的子网。同时,本文提出了一种低秩适配器(LoRA)和渐进训练策略来实现内存高效的超网训练。
- 其它亮点实验结果表明,所提出的方法可以在不降低性能的情况下,将BitOPs减少约95%。
- 近期的相关研究包括:《Deep Compression: Compressing Deep Neural Networks with Pruning, Trained Quantization and Huffman Coding》、《Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流