Iterative Filter Pruning for Concatenation-based CNN Architectures

简介

模型压缩和硬件加速对于深度神经网络的资源高效部署至关重要。现代目标检测器具有高度相互连接的卷积层和串联层。在本研究中，我们研究了如何将剪枝应用于这种架构，以YOLOv7为例。我们提出了一种基于卷积层连接图的方法来处理串联层。通过自动化迭代敏感性分析、剪枝和随后的模型微调，我们可以显著减少模型大小，包括参数数量和FLOPs，同时保持相当的模型准确性。最后，我们将剪枝模型部署到FPGA和NVIDIA Jetson Xavier AGX。与未剪枝的对应模型相比，剪枝模型在卷积层方面表现出2倍的加速，并在FPGA上达到14 FPS的实时性能。我们的代码可在https://github.com/fzi-forschungszentrum-informatik/iterative-yolo-pruning找到。
图表
解决问题

本论文旨在解决深度神经网络的资源高效部署问题，针对现代目标检测器中高度相互连接的卷积层和连接层，提出了一种剪枝方法并在FPGA和NVIDIA Jetson Xavier AGX上进行了部署和测试。
关键思路

本文提出了一种基于卷积层连接图的连接层剪枝方法，并通过自动化迭代敏感性分析、剪枝和模型微调来显著减少模型大小，同时保持可比较的模型准确性。
其它亮点

本文的亮点包括使用自动化迭代方法进行剪枝和模型微调、提出了一种处理连接层的剪枝方法、在FPGA和NVIDIA Jetson Xavier AGX上进行了部署和测试，展示了剪枝模型的2倍速度提升和14 FPS的实时性能，代码已经开源。
相关研究

在相关研究中，有一些研究也关注了深度神经网络的资源高效部署问题，例如《Learning Efficient Convolutional Networks through Network Slimming》、《Channel Pruning for Accelerating Very Deep Neural Networks》等。

Iterative Filter Pruning for Concatenation-based CNN Architectures

评论