Connect, Collapse, Corrupt: Learning Cross-Modal Tasks with Uni-Modal Data

2024年01月16日
  • 简介
    建立跨模态应用程序是具有挑战性的,因为配对的多模态数据有限。最近的研究表明,利用预训练的多模态对比表示空间可以从单模态数据中学习跨模态任务。这是基于对比优化使不同模态的嵌入可互换的假设。然而,由于多模态对比空间的几何形状不易理解,存在模态差距,因此这一假设尚未得到充分探索。在我们的研究中,我们提供了这个空间的几何形状的理论解释,并引入了一个三步方法$C^3$(连接,折叠,破坏)来弥合模态差距,增强嵌入的可互换性。我们的$C^3$方法显著提高了从单模态数据学习跨模态的能力,在零样本图像/音频/视频字幕和文本到图像生成方面取得了最先进的结果。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决跨模态学习中存在的配对多模态数据有限的问题,提出了一种新的方法来增强嵌入的可交换性。
  • 关键思路
    论文提出了一种三步方法$C^3$(连接,折叠,破坏)来填补模态差距,增强嵌入的可交换性,从而显著提高了从单模态数据中进行跨模态学习的性能。
  • 其它亮点
    论文通过理论分析解释了多模态对比空间的几何形态,并在多个数据集上进行了实验验证,取得了最先进的结果。论文还提供了开源代码。
  • 相关研究
    最近的相关研究包括:《Learning Transferable Visual Models From Natural Language Supervision》、《Unpaired Image Captioning by Coarse-to-Fine Training》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问