- 简介多模态基础模型容易出现幻觉,生成的输出要么与输入相矛盾,要么没有基于事实信息。由于架构、训练数据和指导调整技术的多样性,系统易受幻觉的程度有很大差异。为了评估系统的幻觉鲁棒性,已经针对特定任务(如图像字幕、问答、摘要或传记生成)开发了幻觉排名方法。然而,这些方法通常将模型输出与黄金标准参考或标签进行比较,限制了幻觉基准测试在新领域的应用。本文提出了“CrossCheckGPT”,一种基于参考的通用多模态基础模型幻觉排名方法。CrossCheckGPT的核心思想是,不同独立系统不太可能生成相同的幻觉内容,因此跨系统一致性可以提供有意义且准确的幻觉评估分数。只要可以通过适当的距离度量来衡量输出之间的信息一致性,CrossCheckGPT就可以应用于任何模型或任务。我们专注于生成文本的多模态大语言模型,探索了两种信息一致性度量:CrossCheck-explicit和CrossCheck-implicit。我们展示了我们的方法在各种模态(即文本、图像和视听领域)中的幻觉排名的适用性。此外,我们提出了第一个视听幻觉基准测试“AVHalluBench”,并展示了CrossCheckGPT的有效性,在MHaluBench和AVHalluBench上分别实现了与人类判断的98%和89%的相关性。
- 图表
- 解决问题如何评估多模态基础模型的幻觉鲁棒性?当前的评估方法往往只能应用于特定任务和领域,且需要与金标准进行比较。
- 关键思路该论文提出了一种无需参考的通用幻觉评估方法CrossCheckGPT,通过不同系统生成的信息一致性来评估模型的幻觉鲁棒性。
- 其它亮点该方法可以应用于任何模型或任务,只要输出之间的信息一致性可以通过适当的距离度量来衡量。论文还提出了第一个音频-视觉幻觉基准“AVHalluBench”,并展示了CrossCheckGPT的有效性,与MHaluBench和AVHalluBench上的人类判断的相关性分别达到了98%和89%。
- 与此相关的研究包括:1.幻觉评估方法的研究;2.多模态模型的研究。
沙发等你来抢
去评论
评论
沙发等你来抢