ACL 2022 | DQ-BART：基于联合蒸馏和量化的高效Seq2Seq模型

论文标题：

DQ-BART: Efficient Sequence-to-Sequence Model via Joint Distillation and Quantization

论文链接：

https://arxiv.org/abs/2203.11239

大规模预训练端到端模型如 BART 和 T5 已经在各类 NLP 任务上取得了 sota 表现。然而，由于它们的大内存需求和高延迟，这些模型在资源受限的场景中的应用受到了巨大的挑战。

为解决这个问题，本文同时使用了模型蒸馏和模型量化两种方式，将 BART 模型压缩了 16.5 倍，在多个摘要和 QA 数据集上达到了与原模型相当的表现。

内容中包含的图片若涉及版权问题，请及时与我们联系删除