TCAN: Text-oriented Cross Attention Network for Multimodal Sentiment Analysis

2024年04月06日
  • 简介
    多模态情感分析(MSA)旨在利用语言、视觉和声音模态来理解人类情感。尽管先前的MSA方法表现出了卓越的性能,但固有的多模态异质性的存在构成了一个挑战,不同模态的贡献差异很大。过去的研究主要集中在改进表示学习技术和特征融合策略上。然而,许多这些努力忽视了不同模态之间语义丰富度的变化,将每个模态都视为统一的。这种方法可能会低估强模态的重要性,同时过分强调弱模态的重要性。在这些见解的推动下,我们引入了一种以文本模态为主导的文本交叉注意力网络(TCAN)。具体而言,对于每个多模态样本,通过将三个模态的不对齐序列作为输入,我们最初将提取的单模态特征分配到一个视觉-文本对和一个声音-文本对中。随后,我们在文本模态上实施自我注意,并将文本查询的交叉注意力应用于视觉和声音模态。为了减少噪声信号和冗余特征的影响,我们将一个门控控制机制纳入到框架中。此外,我们引入单模态联合学习,通过反向传播来深入了解不同模态之间的同质情感倾向。实验结果表明,TCAN在两个数据集(CMU-MOSI和CMU-MOSEI)上始终优于最先进的MSA方法。
  • 图表
  • 解决问题
    本文旨在解决多模态情感分析中不同模态之间语义丰富度差异的问题,提出了一种基于文本交叉注意力网络的方法。
  • 关键思路
    本文的关键思路是采用文本交叉注意力网络,强调了文本模态在多模态情感分析中的重要性,并通过引入门控机制和联合学习来减少噪声和冗余特征的影响。
  • 其它亮点
    本文在两个数据集上进行了实验,证明了所提出的方法在多模态情感分析中的有效性。此外,本文还开源了代码,值得进一步研究。
  • 相关研究
    相关研究包括:1)多模态情感分析中的特征融合方法;2)文本交叉注意力网络在自然语言处理中的应用;3)多模态情感分析中的其他方法,如基于卷积神经网络和循环神经网络的方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论