Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment

简介

多模态语义理解需要整合不同模态的信息，以提取用户在语言背后的真实意图。大多数先前的工作采用双编码器结构分别编码图像和文本，但未能学习跨模态特征对齐，使得跨模态深度信息交互难以实现。本文提出了一种基于CLIP引导的对比学习的架构，以执行多模态特征对齐，将不同模态产生的特征投影到统一的深度空间中。在多模态讽刺检测（MMSD）和多模态情感分析（MMSA）任务中，实验结果表明，我们提出的模型明显优于几个基线模型，而我们的特征对齐策略相对于具有不同聚合方法和甚至富含知识的模型，带来了明显的性能提升。更重要的是，我们的模型实现简单，不需要使用任务特定的外部知识，因此可以轻松迁移到其他多模态任务。我们的源代码可在https://github.com/ChangKe123/CLFA上获得。
图表
解决问题

本论文旨在解决多模态语义理解中的特征对齐问题，通过提出一种基于对比学习的CLIP引导的架构，将来自不同模态的特征投影到统一的深度空间中。
关键思路

论文提出了一种CLIP引导的对比学习架构，用于多模态特征对齐，通过将来自不同模态的特征投影到统一的深度空间中来实现。
其它亮点

实验结果表明，该模型在多模态讽刺检测和多模态情感分析任务中都表现出显著的优势，且比其他基线模型表现更好。此外，该模型不需要使用任务特定的外部知识，实现简单且易于迁移。
相关研究

在多模态特征对齐方面，之前的工作主要采用双编码器结构分别编码图像和文本，但无法学习跨模态特征对齐。而本论文提出的CLIP引导的对比学习架构则能够实现多模态特征对齐。

Multi-modal Semantic Understanding with Contrastive Cross-modal Feature Alignment

评论