Pelican: Correcting Hallucination in Vision-LLMs via Claim Decomposition and Program of Thought Verification

向作者提问

NEW

简介

大型视觉语言模型（LVLMs）在遵循任务的视觉指令时存在幻觉问题，限制了它们的可信度和实际应用性。我们提出了Pelican——一种新颖的框架，旨在通过声明验证来检测和减轻幻觉。Pelican首先根据一阶谓词将视觉声明分解为一系列子声明链。这些子声明由（谓词、问题）对组成，可以被概念化为计算图的节点。然后，我们使用“思维程序”提示来生成Python代码，通过外部工具的灵活组合来回答这些问题。Pelican通过引入（1）中间变量以精确地定位对象实例，以及（2）共享计算来回答子问题，从而改进了先前的工作，以实现自适应纠正和不一致性识别。最后，我们使用LLM的推理能力通过考虑每个子声明的（问题、答案）对的一致性和置信度来验证声明的正确性。我们的实验表明，在各种基线LVLMs上，幻觉率下降了约8%-32%，与针对MMHal-Bench提出的减轻幻觉的方法相比，下降了27%。在另外两个基准测试中的结果进一步证实了我们的结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
解决问题

本篇论文旨在解决大型视觉语言模型（LVLMs）在视觉指令任务中出现幻觉的问题，限制了它们的可靠性和实际应用性。
关键思路

Pelican是一种新的框架，通过声明验证来检测和减轻幻觉。Pelican首先基于一阶谓词将视觉声明分解为子声明链。这些子声明由（谓词，问题）对组成，并可被概念化为计算图的节点。然后使用思维编程提示生成Python代码，通过外部工具的灵活组合回答这些问题。最后，使用LLM的推理能力通过考虑每个子声明的（问题，答案）对的一致性和置信度来验证声明的正确性。
其它亮点

实验表明，与各种基线LVLM相比，幻觉率下降了约8％-32％，与MMHal-Bench提出的方法相比下降了27％。在两个其他基准测试中的结果进一步证实了我们的结果。
相关研究

最近的相关研究包括：《A Survey on Visual Question Answering》、《Visual-Semantic Graph Attention Networks for Human-Object Interaction Detection》、《Learning to Compose Domain-Specific Transformations for Data Augmentation》等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问