What You See is What You Read? Improving Text-Image Alignment Evaluation

通过引入SeeTRUE基准评估集和提出自动评估方法,改进了文本-图像对齐评估,在不同任务和数据集上取得了显著性能提升。

Michal Yarom, Yonatan Bitton, Soravit Changpinyo, Roee Aharoni, Jonathan Herzig, Oran Lang, Eran Ofek, Idan Szpektor

[Google Research]

图片

改进文本-图像对齐评估

  • 动机:自动确定文本和相应的图像是否语义上对齐,对于视觉语言模型是一个重要的挑战,具有生成文本到图像和图像到文本任务的应用。本文研究了自动文本-图像对齐评估的方法。
  • 方法:介绍了SeeTRUE评估集,涵盖了来自文本到图像和图像到文本生成任务的多个数据集,其中包含了人工判断给定的文本-图像对是否语义对齐。描述了两种确定对齐的自动方法:第一种基于问题生成和视觉问答模型的流程,第二种通过微调多模态预训练模型的端到端分类方法。这两种方法在各种文本-图像对齐任务中超越了先前的方法,在涉及复杂组合或非自然图像的挑战性情况下有显著改进。最后,展示了如何使用所提出方法定位图像和给定文本之间特定的不对齐,并将其用于自动重新排列文本到图像生成的候选项。
  • 优势:引入了SeeTRUE基准评估集、提出了两种无参考的图像-文本对齐评估指标(VQ2和VNLI)、在多个数据集上超越了强基线模型的性能、提供了评估套件、模型和代码供未来研究使用。

内容中包含的图片若涉及版权问题,请及时与我们联系删除