Elliptical Attention

2024年06月19日
  • 简介
    逐句翻译如下: Pairwise dot-product self-attention是transformers成功的关键,这种模型在语言和视觉等各种应用中取得了最先进的性能。这种点积自注意力使用欧几里得距离计算输入令牌之间的注意力权重,这使得模型容易出现表示崩溃并容易受到污染样本的影响。在本文中,我们提出使用Mahalanobis距离度量来计算注意力权重,以拉伸高度上下文相关的基础特征空间。特别地,我们在每个查询周围定义一个超椭球形邻域,以增加位于上下文重要方向上的令牌的注意力权重。我们将这种新型注意力称为椭圆形注意力。我们的椭圆形注意力有两个好处:1)减少表示崩溃;2)增强模型的鲁棒性,因为椭圆形注意力更多地关注上下文相关信息,而不是只关注一小部分信息丰富的特征。我们通过实验证明了椭圆形注意力在各种实际任务中的优点,包括对象分类、图像分割和跨不同数据模态的语言建模,优于基线点积注意力和最先进的注意力方法。
  • 图表
  • 解决问题
    论文旨在解决transformers中基于欧几里得距离的自注意力机制容易导致表示崩溃和受到污染样本影响的问题。
  • 关键思路
    论文提出使用马氏距离度量来计算注意力权重,以拉伸具有高上下文相关性方向的基础特征空间,从而增强模型的鲁棒性和抗噪能力。
  • 其它亮点
    提出一种新的注意力机制Elliptical Attention,通过定义超椭圆形邻域来增加上下文重要方向的注意力权重,从而减少表示崩溃和增强模型的鲁棒性;在不同数据模态上的实验结果表明Elliptical Attention的优越性。
  • 相关研究
    目前在这个领域中,还有一些相关研究,如《Attention is All You Need》、《Visualizing and Understanding Transformer Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论