- 简介目前,利用对比学习的多模态模型在发展细粒度概念理解方面往往面临限制。这是由于在预训练过程中出现随机负样本,导致在损失函数中几乎只比较非常不相似的概念。因此,这些模型在细粒度语义差异方面存在困难。为了解决这个问题,我们引入了一种新的预训练方法,将合成的难负样本文本示例纳入其中。这些难负样本对应于视觉概念的术语进行排列,从而实现更细粒度的视觉和文本概念对齐。此外,我们还引入了 InpaintCOCO 数据集,用于评估视觉语言模型中颜色、物体和大小的细粒度对齐。我们使用 COCO 图像的生成修复来创建数据集,通过更改视觉概念,使图像不再与其原始标题匹配。我们的结果表明,在包括 InpaintCOCO 数据集在内的广泛的视觉语言数据集中,细粒度概念理解得到了显着的改善。
- 图表
- 解决问题论文旨在解决当前多模态模型在细粒度概念理解方面存在的限制,即由于预训练期间的随机负样本,导致仅比较非常不相似的概念,从而导致模型在细粒度语义差异方面存在困难。
- 关键思路论文提出了一种新的预训练方法,将合成的硬负面文本示例纳入其中。这些硬负面例子对应于视觉概念的术语置换,从而实现了更细粒度的视觉和文本概念对齐。
- 其它亮点论文提出了InpaintCOCO数据集,用于评估视觉语言模型中颜色、对象和大小的细粒度对齐。实验结果表明,在包括InpaintCOCO数据集在内的广泛的视觉语言数据集中,都取得了显著的细粒度概念理解的改进。论文开源了代码。
- 最近的相关研究包括:《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
沙发等你来抢
去评论
评论
沙发等你来抢