HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning

向作者提问

NEW

简介

幻觉一直是大型语言模型的主要问题，而在多模态中，视觉语言模型（VLM）不仅需要处理文本输入，还需要处理视觉输入，因此幻觉仍然是一个关键挑战。尽管VLM取得了快速进展，但评估和解决多模态幻觉的资源有限，主要集中在评估方面。本研究介绍了HaloQuest，这是一个新颖的视觉问答数据集，捕捉了多模态幻觉的各个方面，例如虚假前提、不充分的上下文和视觉挑战。HaloQuest的一个新颖想法是利用合成图像，除了真实图像外，以实现规模化的数据集创建。HaloQuest跨越各种类别，拥有超过7.7K个示例，旨在成为VLM的具有挑战性的基准和推进多模态推理的微调数据集。我们的实验揭示了当前模型在HaloQuest方面遇到困难，所有开源VLM的准确率均低于36％。另一方面，对HaloQuest进行微调可以显著降低幻觉率，同时保持在标准推理任务上的性能。我们的结果发现，使用生成的图像进行基准测试与使用真实图像高度相关（r = 0.97）。最后，我们提出了一种新颖的自动评估机制，与人类评分者高度相关（r = 0.99），用于评估VLM。总之，本研究在理解、评估和减轻VLM中的幻觉方面取得了具体进展，是迈向未来更可靠的多模态AI系统的重要一步。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决VLMs中的幻觉问题，特别是在视觉语言模型中的多模态问题，如何评估和解决幻觉问题？
关键思路

论文提出了一个新的视觉问答数据集HaloQuest，通过使用合成图像和真实图像来创建数据集，旨在为VLMs提供一个具有挑战性的基准和微调数据集，以减少幻觉率。
其它亮点

HaloQuest数据集包括超过7.7K个示例，涵盖各种类别，包括虚假前提，不充分的上下文和视觉挑战。实验表明，当前的VLMs在HaloQuest上表现不佳，所有开源VLMs的准确率均低于36％。使用HaloQuest进行微调可以显著减少幻觉率，同时保持标准推理任务的性能。论文还提出了一种新的自动评估机制，与人类评估者高度相关。
相关研究

在最近的相关研究中，还有一些与本文相关的工作，例如：《VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问