Connect, Collapse, Corrupt: Learning Cross-Modal Tasks with Uni-Modal Data

简介

建立跨模态应用程序是具有挑战性的，因为配对的多模态数据有限。最近的研究表明，利用预训练的多模态对比表示空间可以从单模态数据中学习跨模态任务。这是基于对比优化使不同模态的嵌入可互换的假设。然而，由于多模态对比空间的几何形状不易理解，存在模态差距，因此这一假设尚未得到充分探索。在我们的研究中，我们提供了这个空间的几何形状的理论解释，并引入了一个三步方法$C^3$（连接，折叠，破坏）来弥合模态差距，增强嵌入的可互换性。我们的$C^3$方法显著提高了从单模态数据学习跨模态的能力，在零样本图像/音频/视频字幕和文本到图像生成方面取得了最先进的结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决跨模态学习中存在的配对多模态数据有限的问题，提出了一种新的方法来增强嵌入的可交换性。
关键思路

论文提出了一种三步方法$C^3$（连接，折叠，破坏）来填补模态差距，增强嵌入的可交换性，从而显著提高了从单模态数据中进行跨模态学习的性能。
其它亮点

论文通过理论分析解释了多模态对比空间的几何形态，并在多个数据集上进行了实验验证，取得了最先进的结果。论文还提供了开源代码。
相关研究

最近的相关研究包括：《Learning Transferable Visual Models From Natural Language Supervision》、《Unpaired Image Captioning by Coarse-to-Fine Training》等。

Connect, Collapse, Corrupt: Learning Cross-Modal Tasks with Uni-Modal Data

提问交流

提问交流