Evaluating and Analyzing Relationship Hallucinations in LVLMs

简介

幻觉问题是现有的大型视觉语言模型（LVLM）中普遍存在的问题。以往的研究主要集中在调查对象幻觉上，这可以通过引入对象检测器来轻松缓解。然而，这些努力忽略了关于物体间关系的幻觉问题，这对于视觉理解是至关重要的。在这项工作中，我们介绍了一种新的基准测试工具R-Bench，用于评估视觉关系幻觉。R-Bench包括针对存在关系的图像级问题和评估局部视觉理解的实例级问题。我们确定了三种关系共现类型，它们会导致幻觉：关系-关系、主语-关系和关系-对象。视觉指导调整数据集的长尾分布显着影响LVLM对视觉关系的理解。此外，我们的分析表明，当前的LVLM倾向于忽视视觉内容，过度依赖大型语言模型的常识知识。它们在基于上下文信息推理空间关系方面也存在困难。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决现有大型视觉-语言模型（LVLMs）中存在的幻觉问题，特别是关于物体之间关系的幻觉问题。
关键思路

论文提出了一种新的基准测试R-Bench，用于评估视觉关系幻觉，并提出了三种导致幻觉的关系共现类型。此外，论文还发现当前的LVLMs过度依赖常识知识，而忽略了视觉内容。
其它亮点

论文设计了image-level和instance-level的问题，使用了visual instruction tuning dataset，并且提供了开源代码。此外，论文的分析结果也提供了一些值得深入研究的方向。
相关研究

最近相关的研究包括："Object Detection in 20 Questions: A Randomized Approach"和"Visual Relationship Detection with Language Priors"等。

Evaluating and Analyzing Relationship Hallucinations in LVLMs

提问交流

提问交流