BANG: Bridging Autoregressive and Non-autoregressive Generation with Large Scale Pretraining
近两年,预训练技术为自然语言生成的效果带来了极大的改善。基于 Transformer,更大的模型,更大的预训练语料往往可以在下游任务上提供更好的结果。与此同时,模型在使用时的推断耗时也随之变大。这些预训练工作往往针对自回归语言生成模型设计,自回归每次会使用已生成的序列作为已知信息预测未来的一个单词,最终再把每个时间步生成的单词拼成一个完整的序列输出。这其中的时延成为了线上使用或者实时使用这些预训练的自然语言生成模型的瓶颈。
非自回归模型的提出缓解了自回归模型的高时延问题。在非自回归模型中,每个单词之间没有依赖关系,整个输出序列的每个单词被并行地同步预测。虽然其推断速度得到了很大改善,但是生成质量却往往弱于自回归模型。为了平衡推断速度和生成质量,半非自回归的模型被提出和研究。半非自回归的经典做法是把非自回归生成的结果进行多次迭代,但不同半非自回归模型的算法差异比较大。由于和自回归相比,非自回归和半非自回归的依赖关系学习和生成难度较大,所以它们往往在文本-文本翻译,或者语音-文本翻译,文本-语音翻译等输入输出较为对齐的任务上可以提供不错的生成效果,但是很少在问答、对话、摘要等任务上进行研究,而这些领域被自回归生成验证可以拥有不错的生成质量且在预训练下得到提升。
针对上述问题,微软亚洲研究院的研究员们提出了新的自然语言生成预训练 BANG,并指出自回归和非自回归生成可以被统一地理解为,有多大比例的上文信息可以被使用。BANG 的贡献主要有:
- BANG 在大规模预训练中,通过考虑遮盖任意长度的前文来沟通自回归和非自回归生成;
- 提出跨流可见的多流注意力机制来实现高效的预训练,所有单词在考虑到任意长度前文被遮盖的前提下都可被并行预测;
- 对于不同的需求状况,BANG 支持自回归微调,非自回归微调和半非自回归微调。BANG 第一次把不同的生成方案在同一个预训练模型里进行支持;
- 研究员们在 16GB 的英语语料上进行了预训练,在摘要、对话、问题生成上,BANG 对自回归效果和半非自回归效果带来了显著的提升,并达到了与非预训练的 Transformer 自回归模型相似的评测结果。对于自回归生成的微调,BANG 也可以和当前主流的自回归预训练模型达到相似的结果。
感兴趣的可以戳来自MSRA的相关报道。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢