Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition

向作者提问

NEW

简介

虽然多模态情感识别在近年来取得了重大进展，但跨模态之间丰富的协同关系的潜力尚未充分利用。本文引入了递归联合跨模态注意力（RJCMA），以有效捕捉音频、视觉和文本模态之间的模态内和模态间关系，用于维度情感识别。特别地，我们基于联合音频-视觉-文本特征表示和各个模态的特征表示之间的交叉相关性计算注意力权重，从而同时捕捉模态内和模态间关系。再次将各个模态的关注特征作为递归机制的输入，以获得更精细的特征表示。我们还探索了时间卷积网络（TCNs）来改进各个模态特征表示的时间建模。我们进行了大量实验，以评估所提出的融合模型在具有挑战性的Affwild2数据集上的性能。通过有效捕捉音频、视觉和文本模态之间的协同模态内和模态间关系，所提出的融合模型在验证集（测试集）上的愉悦度和唤醒度分别达到了0.585（0.542）和0.674（0.619）的协调相关系数（CCC）。这显示出与验证集（测试集）的愉悦度和唤醒度的基准值0.240（0.211）和0.200（0.191）相比，有了显著的提高，取得了第六届野外情感行为分析（ABAW）竞赛愉悦度-唤醒度挑战的第二名。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在有效地捕捉跨音频、视觉和文本模态的内部和跨模态关系，以进行情感识别。该方法是否解决了当前领域中的新问题需要进一步探讨。
关键思路

本文提出了递归联合跨模态注意力（RJCMA）来捕捉音频、视觉和文本模态之间的内部和跨模态关系。该方法使用交叉相关计算注意力权重，同时捕捉内部和跨模态关系。同时，使用递归机制将单个模态的关注特征再次馈送到融合模型中，以获得更精细的特征表示。
其它亮点

本文使用了Temporal Convolutional Networks（TCNs）来改进单个模态特征表示的时间建模。实验使用Affwild2数据集进行评估，取得了显著的成果。在验证集（测试集）中，对于valence和arousal，提出的融合模型分别达到了0.585（0.542）和0.674（0.619）的Concordance Correlation Coefficient（CCC），相对于验证集（测试集）的基线0.240（0.211）和0.200（0.191）有了显著提高，排名在第二位。
相关研究

最近的相关研究包括：1）基于多模态融合的情感识别方法；2）基于TCNs的情感识别方法；3）基于注意力机制的情感识别方法。相关论文包括：“Multi-modal Emotion Recognition using Deep Learning Approaches: A Review”、“Deep Emotion Recognition with Time-Channel Separable Convolutional Neural Networks”和“Attention-Based Multimodal Fusion for Video Emotion Recognition”。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问