Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding

简介

大型视觉-语言模型（LVLMs）越来越擅长从视觉输入生成具有上下文详细和连贯性的响应。然而，它们在多模态决策和开放式生成方面的应用受到幻觉率显著影响，即生成的文本不准确地表示视觉内容。为了解决这个问题，本文介绍了指令对比解码（ICD）方法，这是一种旨在减少LVLM推理过程中幻觉的新方法。我们的方法受到我们观察到的现象的启发，即我们所谓的干扰指令显著加剧了多模态融合模块中的幻觉。ICD通过对比标准和干扰指令的分布，从而增加对齐的不确定性，并有效地从原始分布中减去幻觉概念。通过对区分性基准（POPE和MME）和生成基准（LLaVa-Bench）进行全面实验，我们证明了ICD显著减轻了对象级和属性级幻觉。此外，我们的方法不仅解决了幻觉问题，而且显著增强了LVLM的一般感知和识别能力。
图表
解决问题

论文旨在解决LVLMs在多模态决策和开放式生成中出现的幻觉问题，提出了Instruction Contrastive Decoding (ICD)方法。
关键思路

ICD方法通过对比标准分布和干扰分布，减少幻觉现象，从而提高LVLMs的感知和识别能力。
其它亮点

论文在POPE、MME和LLaVa-Bench数据集上进行了全面的实验，证明了ICD方法显著减少了物体级和属性级幻觉，同时增强了LVLMs的感知和识别能力。
相关研究

在相关研究中，最近还有一些与LVLMs幻觉问题相关的研究，如《Learning to Contrast the Counterfactual Samples for Robust Visual Question Answering》。

Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding

评论