【论文标题】A Survey of Transformers

【作者团队】Tianyang Lin, Yuxin Wang, Xiangyang Liu, Xipeng Qiu

【发表时间】2021/06/08

【机构】复旦大学

【论文链接】https://arxiv.org/pdf/2106.04554.pdf

本文出自复旦大学邱锡鹏团队,作者从架构修改、预训练、应用三个方面综述了 Transformer 及其变体的研究进展,并指出了未来的一些潜在的研究方向。

Transformer 在自然语言处理、计算机视觉和音频处理等人工智能领域取得了巨大的成功,引起了学术界和业界研究者的广泛兴趣。到目前为止,研究者们已经提出了各种各样的Transformer 变体(又称 X-formers)。

图 1:Transformer 基础架构

在本文中,作者对各种 X-formers 进行了全面回顾,首先简要介绍了最基本的 Transformer 架构,然后提出了一种新的 X-formers 分类法。作者从三个角度介绍各种 X-former:架构修改、预训练和应用。最后,作者概述了未来研究的一些潜在的研究方向。

图 2:各种 Transformer 变体