图片

论文链接:

https://arxiv.org/abs/2210.04692

代码和数据集链接:

https://github.com/PhoebusSi/VQA-VS

homepage链接:

https://phoebussi.github.io/VQA-VS-homepage/

视觉问答(VQA)模型倾向于学习由数据集偏差形成的捷径解决方案,而不是预期解决方案。为了评估 VQA 模型在捷径学习之外的泛化能力,VQA-CP v2 数据集在给定问题类型的训练集和测试集之间引入了答案分布变换(distribution shift)。这样,模型无法使用训练集中的捷径在测试集上表现良好。

然而,VQA-CP v2 只考虑一种类型的捷径(从问题类型到答案),因此仍然不能保证模型依赖于预期方案,而不是特定于此捷径的解决方案。为了克服这一限制,我们提出了一个新的数据集,通过在多个 OOD 测试集中构造不同的 distribution shift 来考虑不同类型的捷径。

此外,我们克服了在使用 VQA-CP v2 时的三个令人不安的操作(例如,直接使用 OOD 测试集选择模型)并进一步标准化 OOD 评估流程。我们的评测基准为 VQA 中的捷径学习提供了更加严格和全面的测试平台。我们对最近的方法进行了基准测试,发现专门为特定捷径设计的方法无法同时推广到我们不同的 OOD 测试集。我们还系统地研究了各种捷径,并提供了一些有价值的发现(详见论文),这可能会促进 VQA 中捷径学习的探索。

内容中包含的图片若涉及版权问题,请及时与我们联系删除