A Text-Centered Shared-Private Framework via Cross-Modal Prediction for Multimodal Sentiment Analysis

吴洋,林子杰,赵妍妍,秦兵,朱李楠

https://aclanthology.org/2021.findings-acl.417.pdf

以往的多模态特征融合研究都是将是三个模态特征视为同等重要,然后隐式地对不同模态之间的交互进行建模。我们认为更深入的研究不同模态对于目标任务的贡献以及显式的分析和建模不同模态特征之间的关系将会帮助模型更有效的进行多模态特征融合。并且,我们提出了两点观察,第一点是,多模态情感分析中文本模态占据主要地位,以往实验结果表明当去掉文本模态后模型结果相比去去掉其它模态产生了巨大的下降。第二点是,相对于文本模态来说,其他模态提供了两类信息,一类信息是共享语义,共享语义没有提供文本模态外的信息,但可以增强相应的语义,并使得模型更加鲁棒。另一类信息是私有语义,私有语义提供了文本之外的语义信息,并可以使得模型预测更加准确。基于这两点观察,我们提出了一种基于跨模态预测的以文本为中心的共享私有框架。在该框架中,我们利用跨模态预测任务来分辨共享特征以及私有特征,并设计了以文本为中心的多模态特征融合机制对多模态特征进行特征融合。

该方法主要包含两部分,一部分是共享特征与私有特征鉴别,另一部分是对共享特征和私有特征进行特征融合。

基于跨模态预测的共享特征与私有特征鉴别

论文在MOSI 和 MOSEI 两个公开数据集上进行实验。实验结果表明利用跨模态预测模型对共享特征和私有特征进行区分并显式地与两类特征分别进行交互可以取得更好的结果。

内容中包含的图片若涉及版权问题,请及时与我们联系删除