Length Generalization of Causal Transformers without Position Encoding

2024年04月18日
  • 简介
    本文研究了没有位置编码(NoPE)的Transformer模型的长度泛化特性。相比于使用显式位置编码的模型,NoPE可以处理更长的序列,但它仍然有一定的上下文长度限制。本文发现,NoPE泛化失败与注意力分布的分散有关。为了解决这个问题,本文提出了一种参数有效的方法来搜索注意力头的最佳温度超参数,从而显著扩展了NoPE的上下文大小。实验表明,NoPE在长序列语言建模、合成密码检索任务和真实世界的长上下文任务中可以达到与最先进的长度泛化算法相当的性能水平。本文的源代码可公开获取。
  • 图表
  • 解决问题
    本篇论文旨在研究基于Transformer模型的语言模型在处理长句子时的泛化能力问题,特别是探究没有位置编码的Transformer模型的泛化能力。
  • 关键思路
    本文提出了一种有效的方法来解决没有位置编码的Transformer模型在处理长句子时的泛化问题,该方法是通过调整注意力机制的超参数来扩展模型的上下文范围。
  • 其它亮点
    本文的实验结果表明,通过调整注意力机制的超参数,没有位置编码的Transformer模型可以在长序列语言建模、合成密钥检索任务和真实世界的长上下文任务中取得与最先进的泛化算法相当的性能。此外,本文的源代码是公开可用的。
  • 相关研究
    在最近的研究中,也有一些关于Transformer模型泛化能力的研究,例如“Attention is not Explanation”和“Understanding the Difficulty of Training Transformers”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论