Unsolvable Problem Detection: Evaluating Trustworthiness of Vision Language Models

2024年03月29日
  • 简介
    本文提出了一个新颖而重要的挑战,即视觉语言模型(VLM)面临无法解决问题时的无解问题检测(UPD)。UPD检查了VLM在视觉问答(VQA)任务的背景下面对无法解决的问题时保留答案的能力。UPD包括三个不同的设置:缺失答案检测(AAD)、不兼容答案集检测(IASD)和不兼容视觉问题检测(IVQD)。通过广泛的实验,深入研究UPD问题,表明大多数VLM,包括GPT-4V和LLaVA-Next-34B,都在不同程度上难以应对我们的基准,突显了改进的重要空间。为了解决UPD问题,我们探索了无需训练和基于训练的解决方案,提供了新的见解,阐明了它们的有效性和局限性。我们希望我们的见解和未来在提出的UPD设置中的努力将增强更实用和可靠的VLM的广泛理解和发展。
  • 图表
  • 解决问题
    论文提出了一个新的挑战——Unsolvable Problem Detection(UPD),考察视觉语言模型在视觉问答任务中面对无法解决的问题时保持答案的能力。论文探讨了三个不同的UPD设置:缺失答案检测(AAD)、不兼容答案集检测(IASD)和不兼容视觉问题检测(IVQD)。
  • 关键思路
    论文提出了训练自由和基于训练的解决方案,探索了它们的有效性和局限性,并深入研究了各种视觉语言模型在UPD问题上的表现。论文的关键思路是通过UPD挑战来提高视觉语言模型的实用性和可靠性。
  • 其它亮点
    论文的实验表明,包括GPT-4V和LLaVA-Next-34B在内的大多数视觉语言模型在UPD基准测试中都面临不同程度的挑战,突出了改进的重要性。论文提供了一些新的见解,包括UPD的解决方案以及它们的有效性和局限性。值得关注的是,论文使用了大量的数据集,并提供了开源的代码,为未来的研究提供了有价值的参考。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Visual Question Answering: A Survey of Methods and Datasets》、《GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论