What to align in multimodal contrastive learning?

2024年09月11日
  • 简介
    人类通过多感官整合来感知世界,将不同模态的信息融合以适应其行为。对比学习为多模态自监督学习提供了一种吸引人的解决方案。事实上,通过将每种模态视为同一实体的不同视角,它学习将不同模态的特征对齐在共享表示空间中。然而,这种方法本质上存在局限性,因为它仅学习模态之间共享或冗余信息,而多模态交互可以以其他方式出现。在这项工作中,我们介绍了CoMM,一种对比多模态学习策略,它使各种模态在单个多模态空间中相互通信。我们提出通过最大化这些多模态特征的增强版本之间的互信息来对齐多模态表示,而不是强加跨模态或内部模态约束。我们的理论分析表明,共享的、协同的和独特的信息术语自然地从这种公式中出现,使我们能够估计超出冗余的多模态交互。我们在受控环境和一系列现实世界环境中测试了CoMM:在前者中,我们证明CoMM有效地捕捉了模态之间的冗余、独特和协同信息。在后者中,CoMM学习了复杂的多模态交互,并在六个多模态基准测试中取得了最先进的结果。
  • 图表
  • 解决问题
    解决问题:论文旨在通过CoMM方法解决多模态学习中的信息冗余问题,以及提高多模态交互的表达能力。
  • 关键思路
    关键思路:CoMM方法通过最大化增强多模态特征的互信息来实现多模态表示空间的对齐,从而捕捉多模态之间的冗余、协同和独特信息。
  • 其它亮点
    亮点:CoMM方法在多个实验中得到了验证,并在六个多模态基准测试中取得了最先进的结果。实验设计合理,使用了多个数据集,并提供了开源代码。
  • 相关研究
    相关研究:在多模态学习领域,还有一些相关的研究,如CMC、SimCLR和MoCo等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论