An FPGA-Based Reconfigurable Accelerator for Convolution-Transformer Hybrid EfficientViT

2024年03月29日
  • 简介
    Vision Transformers(ViTs)在计算机视觉领域取得了显著的成功。然而,它们密集的计算和巨大的内存占用挑战了ViTs在嵌入式设备上的部署,需要高效的ViTs。其中,最先进的EfficientViT采用了卷积-Transformer混合架构,提高了精度和硬件效率。不幸的是,由于其独特的架构,现有的加速器无法充分利用EfficientViT的硬件优势。在本文中,我们提出了一个基于FPGA的EfficientViT加速器,以推进ViTs的硬件效率前沿。具体而言,我们设计了一种可重构架构,以高效地支持各种操作类型,包括轻量级卷积和注意力,提高了硬件利用率。此外,我们提出了一种时间复用和流水线数据流,以促进内部和层间融合,减少芯片外数据访问成本。实验结果表明,我们的加速器在Xilinx ZCU102 FPGA上以200MHz的吞吐量达到了高达780.2 GOPS,能效达到105.1 GOPS/W,显著优于之前的工作。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决Vision Transformers(ViTs)在嵌入式设备上的计算和存储问题,提出了一种基于FPGA的加速器来提高硬件效率。
  • 关键思路
    论文提出了一种可重构架构,以支持各种操作类型,包括轻量级卷积和注意力机制,并采用时间复用和流水线数据流来促进层内和层间融合,从而降低了芯片外数据访问成本。
  • 其它亮点
    论文实验结果表明,在Xilinx ZCU102 FPGA上,该加速器在200MHz时的吞吐量可达780.2 GOPS,能效比为105.1 GOPS/W,显著优于先前的工作。
  • 相关研究
    最近的相关研究包括《Training Efficient Transformers for Image Recognition》、《Design Space Exploration and Optimization of FPGA-based Deep Learning Accelerators: A Survey》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问