作者: Ran Tian, Joshua Maynez, Ankur P. Parikh

简介: 基于自注意力的高度流行的 Transformer 架构是大型预训练模型(如 BERT )的基础,已成为 NLP 中经久不衰的范式。虽然功能强大,但预训练此类模型所需的计算资源和时间可能令人望而却步。在这项工作中,作者提出了另一种自注意力架构 Shatter,它通过软划分相对位置的空间并将不同的值矩阵应用于序列的不同部分来更有效地编码序列信息。作者将这种机制进一步允许让 Transformer 中的多头注意力简化为单头注意力。作者进行了广泛的实验,表明通过预训练,Shatter 获得了比 BERT 更好的性能每步更快(在 TPU 上为 15%),在更少的步骤中收敛,并提供可观的内存节省(>50%)。综合上述两项能力,Shatter可在8核V100的GPU上7天就能预训练完成,并能够达到BERT-Base的性能:这让预训练成本更加低廉。

下载地址:https://arxiv.org/pdf/2108.13032

HUB地址:https://hub.baai.ac.cn/view/9641

 

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除