- 简介高效地捕捉多模态对话上一致和互补的语义特征对于多模态情感识别(MERC)至关重要。现有方法主要使用图结构建模对话上下文语义依赖关系,并采用图神经网络(GNN)捕获情感识别的多模态语义特征。然而,这些方法受到GNN固有特性的限制,如过度平滑和低通滤波,导致无法有效地学习长距离的一致性和互补信息。由于一致性和互补性信息分别对应于低频和高频信息,因此本文从图谱的角度重新审视了多模态对话情感识别问题。具体而言,我们提出了一种基于图谱的多模态一致性和互补协同学习框架GS-MCC。首先,GS-MCC使用滑动窗口构建多模态交互图来建模对话关系,并使用高效的傅里叶图算子分别提取长距离的高频和低频信息。然后,GS-MCC使用对比学习构建自监督信号,以高频和低频信号反映互补和一致的语义协同,从而提高高频和低频信息反映真实情感的能力。最后,GS-MCC将协同的高频和低频信息输入MLP网络和softmax函数进行情感预测。广泛的实验证明了本文提出的GS-MCC架构在两个基准数据集上的优越性。
-
- 图表
- 解决问题本论文解决的问题是如何在多模态对话情境中高效地捕捉一致和互补的语义特征,以实现多模态情感识别。
- 关键思路本论文提出了一种基于图谱频谱的多模态一致性和互补协同学习框架(GS-MCC),通过使用滑动窗口构建多模态交互图来建模对话关系,并使用有效的傅里叶图算子分别提取长距离高频和低频信息。然后,使用对比学习来构建自监督信号,以反映高频和低频信号的互补和一致的语义协同,从而提高高频和低频信息反映真实情感的能力。最后,将协同高频和低频信息输入到MLP网络和softmax函数中进行情感预测。
- 其它亮点本论文的亮点包括使用图谱频谱来提取一致性和互补信息,使用对比学习来构建自监督信号,以及在两个基准数据集上证明了GS-MCC架构的优越性。
- 在最近的相关研究中,一些论文如下: 1. Multimodal Emotion Recognition in Conversation using Multimodal Fusion of Graph Convolutional Networks (GCN) 2. Multimodal Emotion Recognition in Conversations with Graph Convolutional Networks and Long-Short Term Memory
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流