Transformers need glasses! Information over-squashing in language tasks

2024年06月06日
  • 简介
    我们研究了解码器-仅变压器中信息如何传播,这是大多数现有前沿大语言模型(LLMs)的架构骨干。我们依赖于理论信号传播分析 - 具体而言,我们分析了变压器最后一层中最后一个令牌的表示,因为这是用于下一个令牌预测的表示。我们的分析揭示了一种表示崩溃现象:我们证明了变压器的某些不同输入序列可以产生最后一个令牌中任意接近的表示。这种效应在现代LLMs中经常使用的低精度浮点格式加剧了。因此,该模型无法以不同的方式响应这些序列 - 导致在涉及计数或复制等任务中出现错误。此外,我们展示了解码器-仅变压器语言模型可能会失去对输入中特定令牌的敏感性,这与图神经网络中的过度压缩现象有关。我们提供了支持我们在当代LLMs上的说法的经验证据。我们的理论还指出了缓解这些问题的简单解决方案。
  • 图表
  • 解决问题
    论文旨在研究解码器-only Transformer中信息传播的问题。研究发现,由于低精度浮点数格式的使用,模型无法对某些输入序列做出不同的反应,导致在计数或复制等任务中产生错误。
  • 关键思路
    论文使用理论信号传播分析,证明了在解码器-only Transformer中存在表示崩溃现象。此外,研究还发现模型可能会失去对输入中特定令牌的敏感性。
  • 其它亮点
    论文提供了实验证据支持其理论,并指出了解决这些问题的简单方法。研究使用了现代LLMs进行实验,并提供了开源代码。
  • 相关研究
    最近的相关研究包括《On the Relationship between Self-Attention and Convolutional Layers》和《Revisiting Few-sample and Zero-shot Multi-label Learning》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论