FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models

2024年05月16日
  • 简介
    尽管噪声和字幕质量被认为是影响视觉-语言对比预训练的重要因素,但本文表明,通过解决这些问题来改善训练过程的全部潜力尚未得到实现。具体而言,我们首先研究和分析了两个影响训练的问题:负样本错误分配和字幕质量和多样性不足。然后,我们设计了有效的解决方案来解决这两个问题,这些方案基本上需要使用多个真正的正样本对进行训练。最后,我们提出使用sigmoid损失进行训练,以满足这种要求。我们在图像识别(在11个数据集上平均增加约6%)和图像检索(在Flickr30k上增加约19%,在MSCOCO上增加约15%)方面都取得了非常大的进展,超过了当前的最新技术水平。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决视觉-语言对比预训练中负样本分配错误和低质量多样性字幕的问题,并提出有效的解决方案。
  • 关键思路
    解决这些问题的关键思路是使用多个真正的正样本进行训练,并使用sigmoid损失函数。
  • 其它亮点
    论文在11个数据集上进行了实验,结果表明在图像识别和图像检索方面都取得了显著的提高。该论文提出的方法比当前领域内的其他方法更加有效。论文还提供了开源代码。
  • 相关研究
    最近的相关研究包括:《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问