CHOSEN: Compilation to Hardware Optimization Stack for Efficient Vision Transformer Inference

2024年07月17日
  • 简介
    Vision Transformers(ViTs)代表了机器学习方法在计算机视觉领域的重大转变。与传统方法不同,ViTs采用了自注意力机制,该机制已广泛应用于自然语言处理中,以分析图像块。尽管ViTs在建模视觉任务方面具有优势,但在硬件平台上部署ViTs,尤其是可编程门阵列(FPGA),会带来相当大的挑战。这些挑战主要源于ViTs的非线性计算和高计算和存储需求。本文介绍了CHOSEN,这是一个软硬件协同设计框架,旨在解决这些挑战,并提供一个自动化框架,以在FPGA上部署ViT以最大化性能。我们的框架建立在三个基本贡献之上:多核设计以最大化带宽,主要针对多个DDR存储器的好处,近似非线性函数表现出最小的精度降级,以及有效使用FPGA上可用的逻辑块和有效的编译器,通过提供一种新的算法来进行设计空间探索,以找到实现最佳吞吐量和延迟的最佳硬件配置,从而最大化计算内核的性能和内存效率。与最先进的ViT加速器相比,CHOSEN在DeiT-S和DeiT-B模型上的吞吐量分别提高了1.5倍和1.42倍。
  • 图表
  • 解决问题
    如何在FPGA上高效地部署Vision Transformers(ViTs)模型?
  • 关键思路
    提出了CHOSEN软硬件协同设计框架,通过多核设计、近似非线性函数和有效利用FPGA上的逻辑块等方法,实现了ViTs模型在FPGA上的自动化部署,从而最大化性能。
  • 其它亮点
    实验表明,CHOSEN相比现有的ViT加速器,在DeiT-S和DeiT-B模型上分别提高了1.5倍和1.42倍的吞吐量。此外,论文还开源了代码。
  • 相关研究
    最近的相关研究包括:《Training Deep Neural Networks on FPGA with a Split Learning Approach》、《A Survey on FPGA-based Deep Learning Accelerators》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论