Toward Robust Multimodal Learning using Multimodal Foundational Models

2024年01月20日
  • 简介
    现有的多模态情感分析任务高度依赖于训练和测试集是完整的多模态数据的假设,然而这种假设在现实场景中往往难以满足:多模态数据通常是不完整的。因此,在随机缺失模态的情况下,需要一个强大的多模态模型。最近,基于CLIP的多模态基础模型通过学习图像和文本对的对齐跨模态语义,在许多多模态任务上展示了令人印象深刻的性能,但是多模态基础模型也无法直接解决涉及模态缺失的情况。为了缓解这个问题,我们提出了一个简单而有效的框架,即TRML(Toward Robust Multimodal Learning using Multimodal Foundational Models)。TRML利用生成的虚拟模态来替换缺失的模态,并将生成的模态和缺失的模态之间的语义空间进行对齐。具体来说,我们设计了一个缺失模态推断模块来生成虚拟模态并替换缺失的模态。我们还设计了一个语义匹配学习模块来对齐生成的模态和缺失的模态之间的语义空间。在完整模态的提示下,我们的模型通过利用对齐的跨模态语义空间来捕捉缺失模态的语义。实验表明,我们的方法在三个多模态情感分析基准数据集(CMU-MOSI、CMU-MOSEI和MELD)上具有优越性。
  • 图表
  • 解决问题
    论文旨在解决在现实场景中,多模态数据常常是不完整的情况下,如何建立鲁棒的多模态情感分析模型的问题。现有的多模态基础模型无法直接解决这个问题。
  • 关键思路
    论文提出了一个名为TRML的框架,使用生成的虚拟模态替换缺失的模态,并在生成和缺失模态之间对齐语义空间,以建立鲁棒的多模态学习模型。TRML包括缺失模态推断模块和语义匹配学习模块。
  • 其它亮点
    论文在CMU-MOSI、CMU-MOSEI和MELD三个多模态情感分析基准数据集上进行了实验,证明了TRML方法的优越性。论文开源了代码。
  • 相关研究
    近期相关研究包括《Multimodal Sentiment Analysis in the Wild》、《Multimodal Sentiment Analysis with Word-Level Fusion and Reinforcement Learning》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论