- 简介在许多多模态任务中,对比学习已成为一种特别吸引人的方法,因为它可以成功地从丰富的未标记数据中仅利用配对信息(例如图像-标题或视频-音频对)学习表示。这些方法的基础是多视角冗余的假设——即模态之间的共享信息对于下游任务是必要且充分的。然而,在许多实际应用场景中,任务相关的信息也包含在模态唯一的区域中:即仅存在于一个模态中但仍与任务相关的信息。我们如何学习自我监督的多模态表示来捕捉与下游任务相关的共享和唯一信息?本文提出了FactorCL,一种新的多模态表示学习方法,超越了多视角冗余。FactorCL建立在三个新的贡献基础上:(1)将任务相关信息分解为共享和唯一表示,(2)通过最大化MI下界捕获任务相关信息并通过最小化MI上界消除任务不相关信息,(3)多模态数据增强以近似任务相关性而无需标签。在大规模的实际数据集上,FactorCL捕获了共享和唯一信息,并在六个基准测试中取得了最先进的结果。
- 图表
- 解决问题如何学习自我监督的多模态表示,以捕捉下游任务相关的共享和独特信息?
- 关键思路FactorCL方法通过将任务相关信息分解为共享和独特表示,通过最大化MI下限捕获任务相关信息,并通过最小化MI上限消除任务不相关信息,以及使用多模态数据增强来近似任务相关性,从而超越多视图冗余。
- 其它亮点FactorCL在大规模真实数据集上捕获了共享和独特信息,并在六个基准测试上取得了最先进的结果。
- 与此相关的最近研究包括:CMC、SimCLR、MoCo等。
沙发等你来抢
去评论
评论
沙发等你来抢