Hybrid Dynamic Pruning: A Pathway to Efficient Transformer Inference

简介

在深度学习领域，Transformer模型已经变得非常重要，在理解语言到识别图像等许多领域中都取得了进步，涵盖了广泛的应用。尽管它们很成功，但将这些模型部署到实时应用程序中，特别是边缘设备上，由于它们的二次计算强度和内存需求而面临着重大挑战。为了克服这些挑战，我们引入了一种新颖的混合动态剪枝（HDP），这是一种高效的算法-架构协同设计方法，利用头稀疏性、块稀疏性和逼近机会来减少注意力中的计算量和内存访问。通过观察注意力分数和注意力头中的巨大冗余，我们提出了一种新颖的基于整数的行平衡块剪枝，在运行时剪枝注意力矩阵中的不重要块，还提出了基于整数的头剪枝，在运行时早期检测和剪枝不重要的头部。此外，我们提出了一种减少注意力计算的逼近方法。为了以更低的延迟和更高的功率效率高效支持这些方法，我们提出了一个HDP协处理器架构。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

如何在边缘设备上部署Transformer模型，以提高实时应用的效率？
关键思路

通过头部稀疏性、块稀疏性和逼近机会，提出了一种新的算法-架构协同设计方法，称为混合动态剪枝（HDP），以减少注意力计算和内存访问。
其它亮点

论文提出了整数型行平衡块剪枝和整数型头部剪枝来剪枝注意力矩阵中不重要的块和头部，以及一种逼近方法来减少注意力计算。此外，还提出了一种HDP协处理器架构以支持这些方法。实验结果表明，该方法可以显著提高模型的效率，同时保持准确性。
相关研究

最近的相关研究包括“Efficient Transformers: A Survey”和“Dynamic Sparse Graph for Efficient Deep Learning”。

Hybrid Dynamic Pruning: A Pathway to Efficient Transformer Inference

提问交流

提问交流