- 简介随着大型语言模型(LLM)的迅速增长,大型视觉语言模型(LVLM)的发展也得以推动。在LLM中普遍存在的幻觉挑战也出现在LVLM中。然而,大多数现有的研究主要关注于LVLM中的物体幻觉,忽略了LVLM中多种类型的幻觉。在本研究中,我们深入探讨了内在的视觉语言幻觉(IVL-Hallu)问题,全面分析了不同类型IVL-Hallu的原因和反映。具体而言,我们提出了几个新的IVL-Hallu任务,并将它们分为四种类型:(a)物体幻觉,由于物体的误识别而产生;(b)属性幻觉,由于属性的误识别而引起;(c)多模态冲突幻觉,由于文本和视觉信息之间的矛盾而产生;以及(d)反常幻觉,由于LVLM知识与实际图像之间的矛盾而产生。基于这些分类,我们提出了一个更具挑战性的基准测试,名为PhD,用于评估和探索IVL-Hallu。我们提出了一个自动化流程,用于生成不同类型的IVL-Hallu数据。对五个SOTA LVLM的广泛实验表明,它们无法有效地解决我们提出的IVL-Hallu任务,并详细分析和洞察这些新的具有挑战性的IVL-Hallu任务的起源和可能的解决方案,促进了对IVL-Hallu和LVLM的未来研究。该基准测试可在\href{https://github.com/jiazhen-code/IntrinsicHallu}{此链接}上访问。
- 图表
- 解决问题本文旨在探讨大型视觉语言模型(LVLM)中的内在视觉语言幻觉(IVL-Hallu)问题,提出了几种新的IVL-Hallu任务,并通过自动化流程生成了不同类型的数据来评估和探索这些任务。研究表明,当前的SOTA LVLMs难以有效地解决这些新的IVL-Hallu任务。
- 关键思路本文提出了几种新的IVL-Hallu任务,并将其分类为四种类型,分别是物体幻觉、属性幻觉、多模态矛盾幻觉和违反常识幻觉。通过这些分类,本文提出了一个更具挑战性的评估基准PhD,并提出了自动化流程用于生成不同类型的IVL-Hallu数据。
- 其它亮点本文的亮点包括提出了新的IVL-Hallu问题和分类方法,并通过自动化流程生成了不同类型的数据来评估和探索这些问题。实验表明,当前的SOTA LVLMs难以有效地解决这些新的IVL-Hallu任务。此外,本文还提供了一个开放的基准,以便其他研究人员可以使用。
- 在最近的相关研究中,也有一些关注于视觉语言模型中的幻觉问题。例如,《Beyond Accuracy: Behavioral Testing of NLP Models with CheckList》和《Measuring Massive Multimodal Pretrained Language Models》等。
沙发等你来抢
去评论
评论
沙发等你来抢