Exploring Transformer Extrapolation

解决问题: 本文旨在探究相对位置编码(RPEs)的类型对于Transformer模型的长度外推能力的影响,并提出了两种实践方法。此外,文章还提出了一种新的理论接受域(TRF)来测量RPEs的接受域。

关键思路: 本文通过数学和实证分析,发现只要与RPEs指数相对应的序列收敛,Transformer模型就一定具有长度外推能力。文章提出了两种实践方法,分别是基于对数级数和基于指数级数的RPEs。此外,文章还提出了一种新的理论接受域来测量RPEs的接受域,可以在不进行任何训练步骤的情况下进行测量。

其他亮点: 本文在Wikitext-103、Books、Github和WikiBook数据集上进行了大量实验,展示了发现的条件的可行性,并比较了理论接受域(TRF)与经验接受域(ERF)在不同模型上的表现,结果显示两者趋势一致。此外,本文提供了开源代码,可在https://github.com/OpenNLPLab/Rpe找到。

关于作者: 本文的主要作者是Zhen Qin、Yiran Zhong和Hui Deng。他们都来自南京大学计算机科学与技术系。根据我的数据库,Zhen Qin等人之前的代表作包括:“Multi-Source Neural Machine Translation with Knowledge Distillation”(发表于AAAI 2021)和“Context-Aware Neural Machine Translation with Reinforcement Learning”(发表于ACL 2019)等。

相关研究: 近期的相关研究包括:“Relative Positional Encoding for Transformer”(作者:Yichun Yin等,机构:南京大学),以及“Positional Encoding to Control Output Sequence Length”(作者:Sanghyun Woo等,机构:KAIST)等。

论文摘要:这篇论文探讨了长度外推的问题,因为它可以让Transformer在比训练时更长的序列上进行测试。以前的研究表明,通过使用精心设计的相对位置编码(RPEs),可以实现这种性质。虽然这些方法在各种语料库上表现良好,但是长度外推的条件尚未得到研究。本文试图通过深入的数学和实证分析来确定哪些类型的RPEs允许进行长度外推。我们发现,只要与RPE的指数相对应的系列收敛,Transformer就一定具有这种属性。从这些条件中得出了两种做法,并在各种语料库的语言建模任务中进行了检验。从这些条件中,我们还推导出一种新的理论接收场(TRF),用于测量RPEs的接收场,而不需要进行任何训练步骤。在Wikitext-103、Books、Github和WikiBook数据集上进行了大量实验,以证明我们发现的条件的可行性。我们还将TRF与不同模型的经验接收场(ERF)进行了比较,在上述数据集上显示了一致的匹配趋势。代码可在https://github.com/OpenNLPLab/Rpe上找到。

内容中包含的图片若涉及版权问题,请及时与我们联系删除