HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning

2024年07月22日
  • 简介
    幻觉一直是大型语言模型的主要问题,而在多模态中,视觉语言模型(VLM)不仅需要处理文本输入,还需要处理视觉输入,因此幻觉仍然是一个关键挑战。尽管VLM取得了快速进展,但评估和解决多模态幻觉的资源有限,主要集中在评估方面。本研究介绍了HaloQuest,这是一个新颖的视觉问答数据集,捕捉了多模态幻觉的各个方面,例如虚假前提、不充分的上下文和视觉挑战。HaloQuest的一个新颖想法是利用合成图像,除了真实图像外,以实现规模化的数据集创建。HaloQuest跨越各种类别,拥有超过7.7K个示例,旨在成为VLM的具有挑战性的基准和推进多模态推理的微调数据集。我们的实验揭示了当前模型在HaloQuest方面遇到困难,所有开源VLM的准确率均低于36%。另一方面,对HaloQuest进行微调可以显著降低幻觉率,同时保持在标准推理任务上的性能。我们的结果发现,使用生成的图像进行基准测试与使用真实图像高度相关(r = 0.97)。最后,我们提出了一种新颖的自动评估机制,与人类评分者高度相关(r = 0.99),用于评估VLM。总之,本研究在理解、评估和减轻VLM中的幻觉方面取得了具体进展,是迈向未来更可靠的多模态AI系统的重要一步。
  • 作者讲解
  • 图表
  • 解决问题
    论文试图解决VLMs中的幻觉问题,特别是在视觉语言模型中的多模态问题,如何评估和解决幻觉问题?
  • 关键思路
    论文提出了一个新的视觉问答数据集HaloQuest,通过使用合成图像和真实图像来创建数据集,旨在为VLMs提供一个具有挑战性的基准和微调数据集,以减少幻觉率。
  • 其它亮点
    HaloQuest数据集包括超过7.7K个示例,涵盖各种类别,包括虚假前提,不充分的上下文和视觉挑战。实验表明,当前的VLMs在HaloQuest上表现不佳,所有开源VLMs的准确率均低于36%。使用HaloQuest进行微调可以显著减少幻觉率,同时保持标准推理任务的性能。论文还提出了一种新的自动评估机制,与人类评估者高度相关。
  • 相关研究
    在最近的相关研究中,还有一些与本文相关的工作,例如:《VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问