Randomized Positional Encodings Boost Length Generalization of Transformers
Anian Ruoss, Grégoire Delétang, Tim Genewein, Jordi Grau-Moya, Róbert Csordás, Mehdi Bennani, Shane Legg, Joel Veness
[DeepMind]
用随机位置编码提高Transformer的长度泛化能力
-
动机:解决Transformer在处理任意长度序列时的泛化问题,尤其是对于相对简单的任务,如复制字符串,即使是简单任务也无法泛化到任意长度的序列。 -
方法:引入了一种新颖的位置编码方案,名为随机位置编码(Randomized Positional Encodings),以解决Transformer在处理长序列时的泛化问题。随机位置编码模拟了长序列的位置,并随机选择一个有序子集以适应序列的长度。 -
优势:所提出的随机位置编码方案显著改善了Transformer的长度泛化能力,同时保持了其在领域内的泛化性能。通过对6000个模型在15个算法推理任务上进行大规模实证评估,论文表明该方法使Transformer能够泛化到未见长度的序列,平均测试准确率提高了12.0%。
通过引入随机位置编码方案,改善了Transformer处理任意长度序列的泛化能力,提高了测试准确率。
https://arxiv.org/abs/2305.16843
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢