Quasar-ViT: Hardware-Oriented Quantization-Aware Architecture Search for Vision Transformers

2024年07月25日
  • 简介
    本文提出了一种面向硬件的量化感知架构搜索框架 Quasar-ViT,旨在设计高效的 ViT 模型以适应资源受限的边缘设备,并保持准确性。首先,Quasar-ViT 使用我们的逐行灵活的混合精度量化方案、混合精度权重纠缠和超网层缩放技术来训练一个超网。然后,它应用一种高效的面向硬件的搜索算法,结合硬件延迟和资源建模,从超网中确定一系列不同推理延迟目标下的最优子网。最后,我们提出了一系列模型自适应设计,以支持架构搜索,并减轻理论计算减少和实际推理加速之间的差距。我们搜索到的模型在 AMD/Xilinx ZCU102 FPGA 上为 ImageNet 数据集实现了 101.5、159.6 和 251.6 帧每秒的推理速度,分别具有 80.4%、78.6% 和 74.9% 的 top-1 准确率,始终优于之前的工作。
  • 图表
  • 解决问题
    本论文旨在解决ViT模型在资源受限的边缘设备上的高计算复杂度问题,提出了一种硬件导向的量化感知架构搜索框架Quasar-ViT。
  • 关键思路
    Quasar-ViT采用了行向灵活的混合精度量化方案、混合精度权重纠缠和超网层缩放技术,训练出一个超网,然后使用硬件导向的搜索算法,在不同推理延迟目标下确定一系列最优子网。此外,还提出了一系列模型自适应设计,支持在FPGA平台上进行架构搜索和推理加速。
  • 其它亮点
    本论文的实验结果表明,所提出的Quasar-ViT模型在ImageNet数据集上,能够分别达到101.5、159.6和251.6帧每秒的推理速度,同时保持了80.4%、78.6%和74.9%的top-1准确率,表现优于之前的研究成果。此外,论文提出的混合精度量化方案、混合精度权重纠缠和超网层缩放技术也值得关注。
  • 相关研究
    在相关研究方面,最近也有一些关于ViT模型在边缘设备上的推理加速的研究,如EfficientViT、MobileViT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论