Revisiting Multi-modal Emotion Learning with Broad State Space Models and Probability-guidance Fusion

简介

多模态情感识别（MERC）在各个领域，例如人机交互和推荐系统中引起了广泛关注。大多数现有工作通过特征分离和融合来提取多模态特征和情感分类中的情感上下文信息。在重新审视MERC的特点后，我们认为在特征分离阶段应该提取长距离的语义信息，并且在特征融合阶段应该最大化交互模态的语义信息一致性。受最近状态空间模型（SSMs）的启发，Mamba可以有效地建模长距离依赖关系。因此，在本文中，我们充分考虑上述洞见，进一步提高MERC的性能。具体而言，在特征分离阶段，我们提出了Broad Mamba，它不依赖于自注意力机制进行序列建模，而是使用状态空间模型压缩情感表示，并利用广义学习系统探索广义空间中的潜在数据分布。与以往的SSMs不同，我们设计了一个双向SSM卷积来提取全局上下文信息。另一方面，我们设计了一种基于概率指导的多模态融合策略，以最大化模态之间信息的一致性。实验结果表明，所提出的方法可以克服Transformer在建模长距离上下文时的计算和内存限制，并具有成为MERC下一代通用架构的巨大潜力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在进一步提高多模态情感识别（MERC）的性能，解决长距离上下文语义信息提取和多模态特征融合的问题。
关键思路

论文提出了一种基于状态空间模型的Broad Mamba方法，用于特征分离阶段，该方法可以有效地建模长距离依赖关系。在特征融合阶段，论文设计了一种基于概率引导的多模态融合策略，用于最大化模态之间的信息一致性。
其它亮点

论文的实验结果表明，所提出的方法可以克服Transformer在建模长距离上下文时的计算和内存限制，并具有成为下一代通用架构的潜力。论文使用了多个数据集进行实验，并开源了代码。
相关研究

最近的相关研究包括：'Multi-Modal Emotion Recognition Using Deep Learning: A Comprehensive Review'，'A Survey on Multi-Modal Machine Learning'等。

Revisiting Multi-modal Emotion Learning with Broad State Space Models and Probability-guidance Fusion

提问交流

提问交流