Visual Robustness Benchmark for Visual Question Answering (VQA)

2024年07月03日
  • 简介
    这段摘要在探讨视觉问答系统(VQA)在实际应用中是否能够表现得像理论研究中一样好,或者是否会受到现实中的影响,比如图像模糊等,这些因素会在敏感的应用中产生不良影响,例如医学VQA。虽然在VQA文献中已经深入探讨了语言或文本的鲁棒性,但对于VQA模型的视觉鲁棒性还没有进行任何重要的研究。作者提出了第一个大规模基准测试,包括213,000个增强图像,挑战多个VQA模型的视觉鲁棒性,并评估现实视觉损坏的强度。此外,作者还设计了几个鲁棒性评估指标,可以聚合到一个统一的指标中,并量身定制以适应各种用例。实验揭示了模型大小、性能和鲁棒性与视觉损坏之间关系的一些见解。作者的基准测试凸显了需要在模型开发中采用平衡方法,既考虑模型性能,又不会影响鲁棒性。
  • 图表
  • 解决问题
    论文旨在解决视觉问答系统在实际应用中的视觉鲁棒性问题,提出了一个大规模的基准测试,评估了多个VQA模型在真实的视觉污染效果下的表现。
  • 关键思路
    论文设计了几个视觉鲁棒性评估指标,并发现模型大小、性能和鲁棒性之间存在关系。研究表明在模型开发中需要平衡模型性能和鲁棒性。
  • 其它亮点
    论文提出了一个大规模的基准测试,包括213,000个增强图像,评估了多个VQA模型的视觉鲁棒性。研究设计了几个视觉鲁棒性评估指标,并将其聚合成一个统一的指标。
  • 相关研究
    最近的相关研究包括:Vision-and-Language Navigation (VLN),Visual Dialog,以及VQA-Robustness。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论