VCR: Visual Caption Restoration

简介

我们介绍了一项新的视觉-语言任务——“视觉字幕修复”（Visual Caption Restoration，VCR），该任务要求模型使用图像中的像素级提示准确地修复部分遮挡的文本。这个任务的出发点是，嵌入图像中的文本与常见的视觉元素和自然语言 intrinsically 不同，因为需要对视觉、文本和嵌入图像中的文本这三种模态进行对齐。虽然许多研究已经将嵌入图像中的文本整合到了视觉问答任务中，但是这些方法通常依赖于光学字符识别或掩码语言建模，从而将任务主要转化为基于文本的处理。然而，在视觉字幕修复任务中，基于文本的处理变得无效，因为准确的文本修复取决于提供的图像、上下文以及遮挡的文本中微小暴露区域的微妙提示的综合信息。我们开发了一个流程来使用图像-字幕对生成 VCR 任务的合成图像，其中可以通过调整字幕的可见性来控制任务的难度。利用这个流程，我们使用来自维基百科的图像和字幕构建了一个名为 VCR-Wiki 的数据集，包括 211 万个英文和 34.6 万个中文实体，分为易和难两个变体。我们的结果表明，当前的视觉语言模型在 VCR 任务中显著落后于人类表现，并且仅仅在我们的数据集上对模型进行微调并不能带来明显的改进。我们发布了 VCR-Wiki 数据集和数据构建代码，以促进未来的研究。
图表
解决问题

Visual Caption Restoration (VCR)是一个新的视觉语言任务，要求模型能够使用图像中的像素级提示来准确恢复部分遮挡的文本。论文试图解决的问题是如何处理嵌入在图像中的文本，这是一个与常见的视觉元素和自然语言本质上不同的问题。
关键思路

论文提出了一种针对VCR任务的新的数据生成和处理流程，使用图像-标题对生成合成图像，并通过调整标题的可见度来控制任务的难度。同时，论文发现当前的视觉语言模型在VCR任务中表现不如人类，仅仅在数据集上进行微调并不能带来明显的改进。
其它亮点

论文构建了一个名为VCR-Wiki的数据集，包含了来自维基百科的图像和标题，并提供了数据构建代码和数据集。实验结果表明，当前的视觉语言模型在VCR任务中表现不佳，仍需要进一步的研究和改进。
相关研究

最近的相关研究主要集中在视觉问答任务中，但是这些方法通常依赖于光学字符识别或掩码语言建模，无法很好地解决VCR任务中的文本恢复问题。

评论