AdaPTwin: Low-Cost Adaptive Compression of Product Twins in Transformers

简介

本文提出了一种名为AdaPTwin的低秩自适应压缩技术，它可以联合压缩变压器注意力层中的产品相关的权重矩阵对。虽然大型基于变压器的模型在说话人独立的语音识别中表现出了非凡的性能，但它们的巨大尺寸和计算要求使它们在资源受限的环境中使用变得昂贵或不切实际。我们的方法可以优先考虑压缩模型在特定说话人上的性能，同时保持对新说话人和声学条件的泛化能力。值得注意的是，我们的技术仅需要8小时的语音数据进行微调，这可以在不到20分钟内完成，与其他压缩方法相比成本高效。我们通过将Whisper和Distil-Whisper模型压缩高达45％，同时增加的单词错误率不到2％，证明了我们方法的有效性。
图表
解决问题

本文试图提出一种低秩自适应压缩技术AdaPTwin，以减小transformer-based模型在资源受限环境下的计算和存储成本。
关键思路

AdaPTwin通过联合压缩transformer attention层中的产品相关权重矩阵，实现了低秩自适应压缩，可以在保持泛化能力的前提下，优化针对特定说话人的性能。
其它亮点

AdaPTwin只需要8小时的语音数据进行微调，可以在不到20分钟的时间内完成，与其他压缩方法相比，成本更低。实验结果表明，压缩Whisper和Distil-Whisper模型可高达45%，同时仅导致不到2%的词错误率增加。
相关研究

最近的相关研究包括DistilBERT、TinyBERT等基于压缩的模型，以及其他自适应压缩方法，如AMC和HAQ。

AdaPTwin: Low-Cost Adaptive Compression of Product Twins in Transformers

评论