语言偏见不是唯一的捷径：视觉问答的捷径学习数据集

论文链接：

代码和数据集链接：

homepage链接：

https://phoebussi.github.io/VQA-VS-homepage/

视觉问答（VQA）模型倾向于学习由数据集偏差形成的捷径解决方案，而不是预期解决方案。为了评估 VQA 模型在捷径学习之外的泛化能力，VQA-CP v2 数据集在给定问题类型的训练集和测试集之间引入了答案分布变换（distribution shift）。这样，模型无法使用训练集中的捷径在测试集上表现良好。

然而，VQA-CP v2 只考虑一种类型的捷径（从问题类型到答案），因此仍然不能保证模型依赖于预期方案，而不是特定于此捷径的解决方案。为了克服这一限制，我们提出了一个新的数据集，通过在多个 OOD 测试集中构造不同的 distribution shift 来考虑不同类型的捷径。

此外，我们克服了在使用 VQA-CP v2 时的三个令人不安的操作（例如，直接使用 OOD 测试集选择模型）并进一步标准化 OOD 评估流程。我们的评测基准为 VQA 中的捷径学习提供了更加严格和全面的测试平台。我们对最近的方法进行了基准测试，发现专门为特定捷径设计的方法无法同时推广到我们不同的 OOD 测试集。我们还系统地研究了各种捷径，并提供了一些有价值的发现（详见论文），这可能会促进 VQA 中捷径学习的探索。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

语言偏见不是唯一的捷径：视觉问答的捷径学习数据集

评论列表

评论