Evaluating the Quality of Hallucination Benchmarks for Large Vision-Language Models

2024年06月24日
  • 简介
    尽管近年来大规模视觉语言模型(LVLMs)取得了快速进展和出色表现,但LVLMs仍然受到幻觉问题的困扰,即LVLMs倾向于生成与相应视觉输入不一致的响应。为了评估LVLMs中幻觉的程度,以前的研究提出了一系列具有不同类型任务和评估指标的基准。然而,我们发现现有幻觉基准的质量存在差异,有些存在问题,例如在重复测试下评估结果不一致,与人类评估不一致等。为此,我们提出了一个幻觉基准质量测量框架(HQM),利用各种指标分别评估现有幻觉基准的可靠性和有效性。具体而言,对于可靠性,我们探索了测试-重测可靠性和平行形式可靠性,而对于有效性,我们考察了标准效度和幻觉类型的覆盖范围。此外,基于我们的质量测量结果,我们构建了LVLMs的高质量幻觉基准(HQH)。我们对超过10个代表性的LVLMs进行了广泛评估,包括GPT-4o和Gemini-Vision-Pro,以深入分析现有模型中的幻觉问题。我们的基准在https://github.com/HQHBench/HQHBench上公开可用。
  • 图表
  • 解决问题
    本文旨在解决大型视觉语言模型(LVLM)中出现的幻觉问题,并评估现有幻觉基准的质量。
  • 关键思路
    本文提出了一个幻觉基准质量测量框架(HQM),用于评估现有幻觉基准的可靠性和有效性,并构建了一个高质量的幻觉基准(HQH)。
  • 其它亮点
    本文通过评估LVLM中的幻觉问题,提出了一个新的HQM框架,并构建了一个高质量的HQH基准。对10多个代表性的LVLM进行了广泛的评估,并提供了深入分析。HQH基准已在GitHub上公开。
  • 相关研究
    最近的相关研究包括:1.《ViLBERT:预训练任务驱动的多模态模型》;2.《图像-文本对齐的双向转换器》;3.《大规模多模态预训练语言模型》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论