An FPGA-Based Reconfigurable Accelerator for Convolution-Transformer Hybrid EfficientViT

简介

Vision Transformers（ViTs）在计算机视觉领域取得了显著的成功。然而，它们密集的计算和巨大的内存占用挑战了ViTs在嵌入式设备上的部署，需要高效的ViTs。其中，最先进的EfficientViT采用了卷积-Transformer混合架构，提高了精度和硬件效率。不幸的是，由于其独特的架构，现有的加速器无法充分利用EfficientViT的硬件优势。在本文中，我们提出了一个基于FPGA的EfficientViT加速器，以推进ViTs的硬件效率前沿。具体而言，我们设计了一种可重构架构，以高效地支持各种操作类型，包括轻量级卷积和注意力，提高了硬件利用率。此外，我们提出了一种时间复用和流水线数据流，以促进内部和层间融合，减少芯片外数据访问成本。实验结果表明，我们的加速器在Xilinx ZCU102 FPGA上以200MHz的吞吐量达到了高达780.2 GOPS，能效达到105.1 GOPS/W，显著优于之前的工作。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决Vision Transformers（ViTs）在嵌入式设备上的计算和存储问题，提出了一种基于FPGA的加速器来提高硬件效率。
关键思路

论文提出了一种可重构架构，以支持各种操作类型，包括轻量级卷积和注意力机制，并采用时间复用和流水线数据流来促进层内和层间融合，从而降低了芯片外数据访问成本。
其它亮点

论文实验结果表明，在Xilinx ZCU102 FPGA上，该加速器在200MHz时的吞吐量可达780.2 GOPS，能效比为105.1 GOPS/W，显著优于先前的工作。
相关研究

最近的相关研究包括《Training Efficient Transformers for Image Recognition》、《Design Space Exploration and Optimization of FPGA-based Deep Learning Accelerators: A Survey》等。

An FPGA-Based Reconfigurable Accelerator for Convolution-Transformer Hybrid EfficientViT

提问交流

提问交流