Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding

2024年03月27日
  • 简介
    大型视觉-语言模型(LVLMs)越来越擅长从视觉输入生成具有上下文详细和连贯性的响应。然而,它们在多模态决策和开放式生成方面的应用受到幻觉率显著影响,即生成的文本不准确地表示视觉内容。为了解决这个问题,本文介绍了指令对比解码(ICD)方法,这是一种旨在减少LVLM推理过程中幻觉的新方法。我们的方法受到我们观察到的现象的启发,即我们所谓的干扰指令显著加剧了多模态融合模块中的幻觉。ICD通过对比标准和干扰指令的分布,从而增加对齐的不确定性,并有效地从原始分布中减去幻觉概念。通过对区分性基准(POPE和MME)和生成基准(LLaVa-Bench)进行全面实验,我们证明了ICD显著减轻了对象级和属性级幻觉。此外,我们的方法不仅解决了幻觉问题,而且显著增强了LVLM的一般感知和识别能力。
  • 图表
  • 解决问题
    论文旨在解决LVLMs在多模态决策和开放式生成中出现的幻觉问题,提出了Instruction Contrastive Decoding (ICD)方法。
  • 关键思路
    ICD方法通过对比标准分布和干扰分布,减少幻觉现象,从而提高LVLMs的感知和识别能力。
  • 其它亮点
    论文在POPE、MME和LLaVa-Bench数据集上进行了全面的实验,证明了ICD方法显著减少了物体级和属性级幻觉,同时增强了LVLMs的感知和识别能力。
  • 相关研究
    在相关研究中,最近还有一些与LVLMs幻觉问题相关的研究,如《Learning to Contrast the Counterfactual Samples for Robust Visual Question Answering》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论