- 简介transformer在算术任务上表现不佳,这在很大程度上是因为它们无法精确跟踪大量数字中每个数字的确切位置。我们通过为每个数字添加嵌入来解决这个问题,该嵌入编码了数字相对于数字开头的位置。除了这些嵌入本身提供的提升外,我们还展示了这个修复使得架构修改(如输入注入和循环层)可以进一步提高性能。有了位置问题得到解决,我们可以研究transformer的逻辑外推能力。它们能够解决比训练数据更大更复杂的算术问题吗?我们发现,仅使用单个GPU在一天内对20位数字进行训练,我们就可以达到最先进的性能,在100位数字加法问题上实现高达99%的准确性。最后,我们展示这些数字上的收益也解锁了其他多步推理任务的改进,包括排序和乘法。
- 图表
- 解决问题如何解决transformers在算术任务中无法精确跟踪数字位置的问题?是否可以通过这种方法提高transformers在逻辑推理任务中的表现?
- 关键思路为每个数字添加位置嵌入以解决位置跟踪问题,并通过这种方法提高transformers在逻辑推理任务中的表现。
- 其它亮点通过在数字中添加位置嵌入,可以在算术任务和逻辑推理任务中提高transformers的性能。在仅使用单个GPU进行一天的训练后,使用这种方法可以实现99%的准确性,并在排序和乘法等多步推理任务中实现改进。
- 最近的相关研究包括:《Attention Is All You Need》、《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》等。
沙发等你来抢
去评论
评论
沙发等你来抢