生成式文本摘要主要依赖于大规模预训练的 sequence-to-sequence Transformer 模型,为了减少其计算开销,一般使用蒸馏中的伪标记方法。本文中,作者讨论了伪标记方法在获取生成式摘要上存在的问题,并展示了仅仅通过调整注意力温度(Attention temperature)即可提升学生模型生成摘要的能力。

 

图片

论文链接:

https://arxiv.org/abs/2106.03441

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除