- 简介在基于视频的情感识别中,通常期望音频和视觉模态之间存在互补关系,这通常是通过交叉注意力来探索的。然而,它们也可能展现出较弱的互补关系,导致音频-视觉特征的表示不佳,从而降低了系统的性能。为了解决这个问题,我们提出了动态交叉注意力(DCA)模型,它可以根据它们之间的强弱互补关系动态地选择交叉注意力或未被关注的特征。具体地,我们设计了一个简单而高效的门控层来评估交叉注意力机制的贡献,并仅在它们展现出较强互补关系时选择交叉注意力特征,否则选择未被关注的特征。我们在具有挑战性的RECOLA和Aff-Wild2数据集上评估了所提出方法的性能。我们还将所提出的方法与其他交叉注意力的变体进行了比较,并表明所提出的模型在两个数据集上都能持续提高性能。
- 图表
- 解决问题论文旨在解决视频情感识别中音频和视觉模态之间互补关系较弱的问题,导致特征表现不佳,从而降低系统性能的问题。
- 关键思路提出了动态交叉注意力(DCA)的方法,它可以根据它们之间的互补关系动态选择交叉关注或未关注的特征,并使用一个简单而有效的门控层来评估交叉注意力机制的贡献,并仅在它们展示强互补关系时选择交叉关注特征,否则选择未关注特征。
- 其它亮点论文在具有挑战性的RECOLA和Aff-Wild2数据集上评估了所提出方法的性能,并与其他交叉注意力的变体进行了比较,结果表明所提出的模型在两个数据集上均能提高性能。此外,该论文的方法简单有效,值得进一步研究。
- 最近的相关研究包括Cross-Attention Mechanism for Video Emotion Recognition Based on Multimodal Features, Audio-Visual Emotion Recognition with Deep Architectures: A Survey等。
沙发等你来抢
去评论
评论
沙发等你来抢