DSFormer: Effective Compression of Text-Transformers by Dense-Sparse Weight Factorization

简介

随着大型变压器模型在自然语言理解方面的巨大成功，将它们缩小以实现成本效益的部署变得至关重要。最近的研究探索了低秩权重分解技术，这些技术训练高效，并且适用于任何变压器架构。不幸的是，低秩假设往往过于严格，阻碍了压缩模型的表达能力。本文提出了DSFormer，一种简单的替代分解方案，它将目标权重矩阵表达为一个小的密集矩阵和一个半结构化稀疏矩阵的乘积。由此产生的近似更符合变压器中的权重分布，因此实现了更强的效率-准确性权衡。现有分解器的另一个问题是它们依赖于一个任务无关的初始化步骤，这会降低所得模型的准确性。DSFormer通过一种新颖的直通分解器（STF）算法解决了这个问题，该算法共同学习所有的权重分解，以直接最大化最终任务准确性。在多个自然语言理解基准测试上进行的大量实验表明，DSFormer比最先进的低秩分解器获得了高达40%的更好压缩效果，超过了半结构化稀疏基线和流行的知识蒸馏方法。我们的方法与主流压缩器正交，并且在添加到流行的蒸馏、层共享和量化变压器时提供高达50%的额外压缩。我们通过实验证明了STF相对于传统优化方法的好处。
图表
解决问题

本论文旨在解决大型transformer模型在自然语言理解中的高成本问题，提出了一种简单的替代因式分解方案，旨在更好地平衡压缩效率和模型精度。
关键思路

DSFormer是一种将目标权重矩阵表示为小密集矩阵和半结构稀疏矩阵乘积的因式分解方案，相比于现有的低秩因式分解方法，这种方法更符合transformer中的权重分布，从而实现更好的压缩效率和模型精度平衡。
其它亮点

DSFormer相比于现有的低秩因式分解方法，在多个自然语言理解基准测试中实现了高达40%的压缩效果，同时还能与主流压缩器相结合实现高达50%的额外压缩，作者还提出了一种新的Straight-Through Factorizer算法来解决现有因式分解方法中的初始化问题。
相关研究

最近的相关研究包括低秩因式分解方法、知识蒸馏方法和半结构稀疏矩阵等。

DSFormer: Effective Compression of Text-Transformers by Dense-Sparse Weight Factorization

评论