- 简介大型视觉语言模型(LVLMs)在遵循任务的视觉指令时存在幻觉问题,限制了它们的可信度和实际应用性。我们提出了Pelican——一种新颖的框架,旨在通过声明验证来检测和减轻幻觉。Pelican首先根据一阶谓词将视觉声明分解为一系列子声明链。这些子声明由(谓词、问题)对组成,可以被概念化为计算图的节点。然后,我们使用“思维程序”提示来生成Python代码,通过外部工具的灵活组合来回答这些问题。Pelican通过引入(1)中间变量以精确地定位对象实例,以及(2)共享计算来回答子问题,从而改进了先前的工作,以实现自适应纠正和不一致性识别。最后,我们使用LLM的推理能力通过考虑每个子声明的(问题、答案)对的一致性和置信度来验证声明的正确性。我们的实验表明,在各种基线LVLMs上,幻觉率下降了约8%-32%,与针对MMHal-Bench提出的减轻幻觉的方法相比,下降了27%。在另外两个基准测试中的结果进一步证实了我们的结果。
-
- 解决问题本篇论文旨在解决大型视觉语言模型(LVLMs)在视觉指令任务中出现幻觉的问题,限制了它们的可靠性和实际应用性。
- 关键思路Pelican是一种新的框架,通过声明验证来检测和减轻幻觉。Pelican首先基于一阶谓词将视觉声明分解为子声明链。这些子声明由(谓词,问题)对组成,并可被概念化为计算图的节点。然后使用思维编程提示生成Python代码,通过外部工具的灵活组合回答这些问题。最后,使用LLM的推理能力通过考虑每个子声明的(问题,答案)对的一致性和置信度来验证声明的正确性。
- 其它亮点实验表明,与各种基线LVLM相比,幻觉率下降了约8%-32%,与MMHal-Bench提出的方法相比下降了27%。在两个其他基准测试中的结果进一步证实了我们的结果。
- 最近的相关研究包括:《A Survey on Visual Question Answering》、《Visual-Semantic Graph Attention Networks for Human-Object Interaction Detection》、《Learning to Compose Domain-Specific Transformations for Data Augmentation》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流