FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models

简介

尽管噪声和字幕质量被认为是影响视觉-语言对比预训练的重要因素，但本文表明，通过解决这些问题来改善训练过程的全部潜力尚未得到实现。具体而言，我们首先研究和分析了两个影响训练的问题：负样本错误分配和字幕质量和多样性不足。然后，我们设计了有效的解决方案来解决这两个问题，这些方案基本上需要使用多个真正的正样本对进行训练。最后，我们提出使用sigmoid损失进行训练，以满足这种要求。我们在图像识别（在11个数据集上平均增加约6％）和图像检索（在Flickr30k上增加约19％，在MSCOCO上增加约15％）方面都取得了非常大的进展，超过了当前的最新技术水平。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文旨在解决视觉-语言对比预训练中负样本分配错误和低质量多样性字幕的问题，并提出有效的解决方案。
关键思路

解决这些问题的关键思路是使用多个真正的正样本进行训练，并使用sigmoid损失函数。
其它亮点

论文在11个数据集上进行了实验，结果表明在图像识别和图像检索方面都取得了显著的提高。该论文提出的方法比当前领域内的其他方法更加有效。论文还提供了开源代码。
相关研究

最近的相关研究包括：《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》

FFF: Fixing Flawed Foundations in contrastive pre-training results in very strong Vision-Language models

提问交流

提问交流