- 简介尽管噪声和字幕质量被认为是影响视觉-语言对比预训练的重要因素,但本文表明,通过解决这些问题来改善训练过程的全部潜力尚未得到实现。具体而言,我们首先研究和分析了两个影响训练的问题:负样本错误分配和字幕质量和多样性不足。然后,我们设计了有效的解决方案来解决这两个问题,这些方案基本上需要使用多个真正的正样本对进行训练。最后,我们提出使用sigmoid损失进行训练,以满足这种要求。我们在图像识别(在11个数据集上平均增加约6%)和图像检索(在Flickr30k上增加约19%,在MSCOCO上增加约15%)方面都取得了非常大的进展,超过了当前的最新技术水平。
-
- 图表
- 解决问题论文旨在解决视觉-语言对比预训练中负样本分配错误和低质量多样性字幕的问题,并提出有效的解决方案。
- 关键思路解决这些问题的关键思路是使用多个真正的正样本进行训练,并使用sigmoid损失函数。
- 其它亮点论文在11个数据集上进行了实验,结果表明在图像识别和图像检索方面都取得了显著的提高。该论文提出的方法比当前领域内的其他方法更加有效。论文还提供了开源代码。
- 最近的相关研究包括:《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流