THRONE: An Object-based Hallucination Benchmark for the Free-form Generations of Large Vision-Language Models

2024年05月08日
  • 简介
    缓解大型视觉语言模型(LVLM)中的幻觉仍然是一个未解决的问题。最近的基准测试没有解决自由形式回答中的幻觉问题,我们将其称为“类型I幻觉”。相反,它们专注于回答非常特定的问题格式的幻觉,通常是关于特定对象或属性的多项选择响应,我们将其称为“类型II幻觉”。此外,这些基准测试通常需要对可能发生变化的模型进行外部API调用。在实践中,我们观察到减少类型II幻觉并不会导致类型I幻觉的减少,而是两种幻觉形式通常是反相关的。为了解决这个问题,我们提出了THRONE,一种新颖的基于对象的自动框架,用于定量评估LVLM自由形式输出中的类型I幻觉。我们使用公共语言模型(LM)来识别LVLM响应中的幻觉并计算信息度量。通过使用公共数据集评估大量最近的LVLM,我们表明现有度量的改进并不会导致类型I幻觉的减少,并且用于测量类型I幻觉的已建立基准测试是不完整的。最后,我们提供了一种简单有效的数据增强方法,作为强基线,以减少类型I和类型II幻觉。
  • 图表
  • 解决问题
    本论文旨在解决大型视觉-语言模型(LVLM)中的幻觉问题,特别是自由形式回答中的Type I幻觉。现有的基准测试主要关注Type II幻觉,这些幻觉是针对特定问题格式的多项选择响应,而且这些基准测试通常需要对外部API进行调用。
  • 关键思路
    论文提出了一种名为THRONE的自动框架,用于定量评估LVLM自由形式输出中的Type I幻觉。作者使用公共语言模型(LM)来识别LVLM响应中的幻觉,并计算信息度量。最终提供了一种简单而有效的数据增强方法,作为强大的基准线,以减少Type I和Type II幻觉。
  • 其它亮点
    论文通过使用公共数据集评估了多个最新的LVLM,并表明现有的度量标准的改进并不会导致Type I幻觉的减少,而且已有的用于测量Type I幻觉的基准测试是不完整的。作者提出的THRONE框架可以帮助研究人员更好地评估LVLM的幻觉问题。此外,作者还提供了用于减少Type I和Type II幻觉的数据增强方法,这是一个简单而有效的解决方案。
  • 相关研究
    最近的相关研究包括《GPT-3 and the Battle for the Future of AI Language Models》、《A Review of Recent Advances in Vision-and-Language Pre-training》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论