CoLT5:具有条件计算的更快的远程变压器

主要贡献:

- 比 LongT5 性能更强,训练和推理速度更快

- SCROLLS 基准上的 SOTA

- 高达 64k 输入长度的强劲增益

论文地址:https://arxiv.org/abs/2303.09752

作者:Joshua AinslieTao LeiMichiel de JongSantiago OntañónSiddhartha BrahmaYury ZemlyanskiyDavid UthusMandy GuoJames Lee-ThorpYi TayYun-Hsuan SungSumit Sanghai

摘要:

诸多自然语言处理任务均可以从长输入序列中取得性能收益,但利用Transformer模型处理这些长输入序列往往会造成昂贵的计算。这不仅是因为计算复杂度随输入长度呈指数级增长,还在于前向传播与映射层对每个文本Token的重复处理。然而,并不是所有的Token对于计算都是必要的,尤其是在长文本输入中。本文提出COLT5以将计算资源集中在重要Token的映射和计算过程中,从而相较于LONGT5取得了更快的训练、推理速度以及更精确的测试精度。实验表明,COLT5不仅在SCROLLS数据集上取得了一流性能,还能够有效处理64k的超长文本序列。

内容中包含的图片若涉及版权问题,请及时与我们联系删除