Gaussian Adaptive Attention is All You Need: Robust Contextual Representations Across Multiple Modalities

2024年01月20日
  • 简介
    我们提出了多头高斯自适应注意力机制(GAAM),这是一种新颖的概率注意力框架,以及高斯自适应变压器(GAT),旨在增强跨多种模态的信息聚合,包括语音、文本和视觉。GAAM将可学习的均值和方差集成到其注意力机制中,在多头框架中实现,使其能够共同建模任何概率分布以动态重新校准特征的重要性。这种方法表现出显着的改进,特别是在高度非平稳的数据中,通过识别特征空间内的关键元素,超越了现有技术的关注技术在模型性能方面的表现(精度提高了约20%)。GAAM与基于点积的注意力模型兼容,并且参数数量相对较少,展示了其适应性和提升现有注意力框架的潜力。从实证角度来看,GAAM在各种任务中展现出卓越的适应性和功效,包括语音情感识别、图像分类和文本分类,从而建立了其处理多模态数据的稳健性和多功能性。此外,我们引入了重要性因子(IF),这是一种新的基于学习的度量,可以增强使用基于GAAM的方法训练的模型的可解释性。总的来说,GAAM代表了向跨多种模态的更好性能和更可解释的关注模型的发展的进步。
  • 图表
  • 解决问题
    本篇论文旨在提出一种新的概率性注意力框架——多头高斯自适应注意力机制(GAAM),以及一种增强多模态信息聚合的高斯自适应变压器(GAT),并验证其在多个任务上的性能。
  • 关键思路
    GAAM结合可学习的均值和方差,实现多头注意力机制,能够模拟任何概率分布来动态重新校准特征的重要性,相较于现有注意力模型,能够更好地处理非平稳数据,提升模型性能和解释性。
  • 其它亮点
    该方法在多个任务中表现出优异的鲁棒性和适应性,包括语音情感识别、图像分类和文本分类。同时,提出了一种新的学习度量——重要性因子(IF),增强了模型的解释性。
  • 相关研究
    最近的相关研究包括:《Attention Is All You Need》、《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论