A Primal-Dual Framework for Transformers and Neural Networks

2024年06月19日
  • 简介
    自我注意力是Transformer在序列建模任务中取得显著成功的关键,包括自然语言处理和计算机视觉中的许多应用。像神经网络层一样,这些注意力机制通常是通过试错和经验开发出来的。为了提供一个构建Transformer中注意力层的原则性框架,我们展示了自我注意力对应于从支持向量回归问题导出的支持向量扩展,其原始公式具有神经网络层的形式。使用我们的框架,我们推导出了实践中使用的流行注意力层,并提出了两种新的注意力机制:1)批量归一化注意力(Attention-BN),它源于批量归一化层;2)具有缩放头部的注意力(Attention-SH),它源于使用较少的训练数据来拟合SVR模型。我们通过实验证明了Attention-BN和Attention-SH在减少头部冗余、提高模型准确性和提高模型在包括图像和时间序列分类在内的各种实际应用中的效率方面的优势。
  • 图表
  • 解决问题
    论文旨在提供一个原则性的框架,用于构建transformers中的attention层,以解决自我关注在序列建模任务中的重要性,包括自然语言处理和计算机视觉等领域。同时,论文提出两种新的attention机制,以减少头部冗余,提高模型的准确性和效率。
  • 关键思路
    论文提出了一种基于支持向量回归问题的支持向量扩展的方法来构建attention层,使得self-attention能够与神经网络层相对应。同时,论文提出了两种新的attention机制,分别基于批量归一化层和使用较少的训练数据来拟合SVR模型。
  • 其它亮点
    论文通过实验验证了提出的Attention-BN和Attention-SH的优越性,这些实验包括图像和时间序列分类等多个实际应用场景。此外,论文还对现有的attention机制进行了总结和比较,并提供了开源代码。
  • 相关研究
    近期的相关研究包括《Attention is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论