- 简介这项工作提出了双向视觉语言组合(BiVLC)数据集,与现有的视觉语言组合(VLC)基准(如SugarCrepe)不同,它添加了从合成文本生成的合成负面图像,从而产生了两个图像到文本检索示例(每个图像一个),更重要的是,产生了两个文本到图像检索示例(每个文本一个)。人类注释员过滤掉了不良形式的示例,确保了基准的有效性。在BiVLC上的实验揭示了当前多模型的弱点,因为它们在文本到图像的方向上表现不佳。事实上,当考虑到两个检索方向时,之前的研究结论发生了显著变化。除了基准测试,我们还展示了使用合成图像和文本训练的对比模型,在SugarCrepe和BiVLC的两个检索方向上都提高了现有技术水平。BiVLC中与人类表现的差距确认了视觉语言组合仍然是一个具有挑战性的问题。BiVLC和代码可在https://imirandam.github.io/BiVLC_project_page上获得。
- 图表
- 解决问题本论文旨在解决视觉-语言组合性问题(VLC),并提出了一个新的数据集BiVLC,用于评估VLC模型的性能。
- 关键思路BiVLC数据集的创新之处在于添加了一个从合成文本生成的合成负面图像,从而产生了两个图像到文本检索示例和两个文本到图像检索示例。
- 其它亮点论文通过实验发现,当前的多模态模型在文本到图像检索方向上表现较差。此外,论文还展示了一种使用合成图像和文本训练的对比模型,改进了SugarCrepe和BiVLC的检索性能。
- 与此相关的最新研究包括SugarCrepe数据集等现有的VLC基准以及使用对比学习的其他研究,如CLIP和ViLBERT。
沙发等你来抢
去评论
评论
沙发等你来抢