Evaluating and Analyzing Relationship Hallucinations in LVLMs

2024年06月24日
  • 简介
    幻觉问题是现有的大型视觉语言模型(LVLM)中普遍存在的问题。以往的研究主要集中在调查对象幻觉上,这可以通过引入对象检测器来轻松缓解。然而,这些努力忽略了关于物体间关系的幻觉问题,这对于视觉理解是至关重要的。在这项工作中,我们介绍了一种新的基准测试工具R-Bench,用于评估视觉关系幻觉。R-Bench包括针对存在关系的图像级问题和评估局部视觉理解的实例级问题。我们确定了三种关系共现类型,它们会导致幻觉:关系-关系、主语-关系和关系-对象。视觉指导调整数据集的长尾分布显着影响LVLM对视觉关系的理解。此外,我们的分析表明,当前的LVLM倾向于忽视视觉内容,过度依赖大型语言模型的常识知识。它们在基于上下文信息推理空间关系方面也存在困难。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决现有大型视觉-语言模型(LVLMs)中存在的幻觉问题,特别是关于物体之间关系的幻觉问题。
  • 关键思路
    论文提出了一种新的基准测试R-Bench,用于评估视觉关系幻觉,并提出了三种导致幻觉的关系共现类型。此外,论文还发现当前的LVLMs过度依赖常识知识,而忽略了视觉内容。
  • 其它亮点
    论文设计了image-level和instance-level的问题,使用了visual instruction tuning dataset,并且提供了开源代码。此外,论文的分析结果也提供了一些值得深入研究的方向。
  • 相关研究
    最近相关的研究包括:"Object Detection in 20 Questions: A Randomized Approach"和"Visual Relationship Detection with Language Priors"等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问