LongNet: Scaling Transformers to 1,000,000,000 Tokens

Jiayu Ding, Shuming Ma, Li Dong, Xingxing Zhang, Shaohan Huang, Wenhui Wang, Furu Wei
[Microsoft Research]

LongNet:将Transformer扩展至10亿Token

  • 动机:在大型语言模型时代,扩展序列长度已经成为一个关键需求。然而,现有方法在计算复杂性和模型表达性之间的平衡上存在挑战,限制了最大序列长度。本文的目标是介绍一种可以将序列长度扩展到超过10亿Token的Transformer变体,而不会牺牲较短序列的性能。
  • 方法:提出LONGNET,一种使用新的组件——扩张注意力(dilated attention)替换标准Transformer注意力的方法。扩张注意力的设计原则是随着Token之间距离的增长,注意力分配呈指数级下降。LONGNET具有线性的计算复杂性和对Token之间的对数依赖性,可以解决有限的注意力资源和每Token可访问性之间的矛盾。
  • 优势:该方法能有效地处理长序列,并且在各种任务中都显示出了其有效性。此外,该方法可以并行训练,打破了计算和内存的限制,使得序列长度可以有效地扩展到10亿Token。


提出了LONGNET,一种可将序列长度扩展到超过10亿个Token的Transformer变体,使用新的组件——扩张注意力,可以有效地处理长序列,并且在各种任务中都显示出了其有效性。

https://arxiv.org/abs/2307.02486 
图片
图片
图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除