Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling

Shentong Mo ,
Pedro Morgado
2023年12月02日
  • 简介
    人类拥有一个非凡的能力,即整合听觉和视觉信息,从而更深入地理解周围环境。通过认知心理学和神经科学研究展示的这种早期融合的音频和视觉线索,为开发多模态感知模型提供了很大的潜力。然而,训练早期融合架构存在重大挑战,因为增加的模型表达能力需要强大的学习框架来利用其增强的能力。在本文中,我们通过利用先前在单模态设置中成功的掩码重构框架来训练具有早期融合的音频-视觉编码器来解决这个挑战。此外,我们提出了一个基于注意力的融合模块,捕捉局部音频和视觉表示之间的交互,增强模型捕捉细粒度交互的能力。虽然有效,但随着局部表示数量的增加,这个过程可能变得计算上棘手。因此,为了解决计算复杂性,我们提出了一种替代过程,即在表示音频-视觉交互之前对局部表示进行分解。在各种数据集上进行的广泛评估表明,我们的方法在音频事件分类、视觉声音定位、声音分离和音频-视觉分割方面具有优越性。这些贡献使得深度集成音频-视觉模型的高效训练成为可能,并显著提高了早期融合架构的实用性。
  • 图表
  • 解决问题
    论文试图解决如何训练早期融合的音频-视觉编码器模型的问题,以便更好地捕捉细粒度的交互信息。
  • 关键思路
    论文提出了一种基于掩码重构框架和注意力融合模块的训练方法,以有效地训练音频-视觉编码器模型。同时,论文提出了一种因式分解方法,以减少计算复杂度。
  • 其它亮点
    论文在多个数据集上进行了广泛的评估,证明了该方法在音频事件分类、视觉声音定位、声音分离和音频-视觉分割等任务上的优越性。此外,论文还提供了开源代码。
  • 相关研究
    在早期融合音频-视觉编码器模型方面,之前的研究主要集中在单模态设置下的训练。而本文提出的方法则是在多模态设置下进行训练。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论