Multi-Object Hallucination in Vision-Language Models

2024年07月08日
  • 简介
    大型视觉语言模型(LVLM)往往会出现物体幻觉,即在给定的图像中产生不存在的物体。虽然当前的物体幻觉基准主要集中在单个物体类别的存在上,而非个体实体,但本研究系统地调查了多物体幻觉,研究了当模型同时专注于多个物体时如何误判(例如发明不存在的物体或分心)。我们引入了基于识别的物体探测评估(ROPE),这是一种自动化评估协议,考虑了单个图像中物体类别的分布,并使用视觉指示提示来消除歧义。通过全面的经验研究和分析可能导致多物体幻觉的潜在因素,我们发现(1)LVLM在专注于多个物体时比专注于单个物体时更容易出现幻觉。(2)测试的物体类别分布影响幻觉行为,表明LVLM可能会遵循捷径和虚假相关性。(3)幻觉行为受到数据特定因素、显著性和频率以及模型固有行为的影响。我们希望使LVLM能够识别和推理出现在现实视觉场景中的多个物体,提供见解,并量化我们在缓解问题方面的进展。
  • 图表
  • 解决问题
    LVLMs在处理多个物体时容易出现物体幻觉,本文试图系统地研究多物体幻觉的现象和原因。
  • 关键思路
    本文提出了Recognition-based Object Probing Evaluation(ROPE)评估协议,考虑在单个图像中物体类别的分布,并使用视觉引用提示来消除歧义。研究发现,LVLMs在处理多个物体时比处理单个物体更容易出现幻觉,测试图像中物体类别的分布会影响幻觉行为,数据特定因素、显著性和频率以及模型内在行为都会影响幻觉行为。
  • 其它亮点
    本文使用了自动化的评估协议ROPE来研究LVLMs的多物体幻觉现象,实验设计全面,使用了多个数据集,为研究多物体幻觉提供了新的思路和方法。研究发现LVLMs可能会遵循捷径和虚假的相关性,这为解决多物体幻觉问题提供了启示。
  • 相关研究
    最近的相关研究包括《Object-Centric Learning with Slot Attention》、《Object Detection in Video with Spatiotemporal Sampling Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论