Efficient Edge AI: Deploying Convolutional Neural Networks on FPGA with the Gemmini Accelerator

2024年08月14日
  • 简介
    越来越多关于能源消耗和隐私的担忧促使开发可部署在边缘的AI解决方案,规避与云服务器相关的大量二氧化碳排放并减轻与共享敏感数据相关的风险。但是,在非现成的边缘设备上部署卷积神经网络(CNNs)仍然是一项复杂而费力的任务。在本文中,我们提出了一种端到端的工作流程,用于使用我们修改后的Gemmini加速器在可编程门阵列(FPGAs)上部署CNNs。我们描述了如何在部署过程的每个优化步骤中利用开源软件、我们添加的自定义内容以及它对最终系统性能的影响。我们能够通过在Xilinx ZCU102 FPGA上部署YOLOv7模型实现实时性能,能效为36.5 GOP/s/W。我们的基于FPGA的解决方案展示了比其他嵌入式硬件设备更卓越的功率效率,甚至超过了其他FPGA参考实现。最后,我们展示了这种解决方案如何集成到更广泛的系统中,通过在交通监控场景中测试我们提出的平台。
  • 作者讲解
  • 图表
  • 解决问题
    在边缘设备上部署卷积神经网络(CNNs)仍然是一个复杂而费力的任务,本文试图解决这个问题。
  • 关键思路
    本文提出了一个端到端的工作流程,使用修改后的Gemmini加速器在FPGA上部署CNNs。并且利用开源软件在每个优化步骤中进行优化。
  • 其它亮点
    实验结果表明,在Xilinx ZCU102 FPGA上部署YOLOv7模型,能够实现实时性能,并且能够达到36.5 GOP/s/W的能效。与其他嵌入式硬件设备相比,基于FPGA的解决方案表现出更高的能效,并且优于其他FPGA参考实现。此外,本文还测试了该平台在交通监测场景下的应用。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,例如:'A Survey of FPGA-Based Neural Network Inference Acceleration'和 'FPGA-based Acceleration of Convolutional Neural Networks for Object Detection'。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问