ACL 2022 | 给注意力升升温，模型摘要的有效蒸馏

生成式文本摘要主要依赖于大规模预训练的 sequence-to-sequence Transformer 模型，为了减少其计算开销，一般使用蒸馏中的伪标记方法。本文中，作者讨论了伪标记方法在获取生成式摘要上存在的问题，并展示了仅仅通过调整注意力温度（Attention temperature）即可提升学生模型生成摘要的能力。

论文链接：

https://arxiv.org/abs/2106.03441

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ACL 2022 | 给注意力升升温，模型摘要的有效蒸馏

评论