Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding

2024年03月27日
  • 简介
    大型视觉语言模型(LVLMs)越来越擅长从视觉输入中生成上下文详细和连贯的响应。然而,在多模态决策和开放式生成中,它们的应用受到幻觉的明显影响,即生成的文本不准确地表示视觉内容。为了解决这个问题,本文介绍了一种新颖的方法——指令对比解码(ICD)方法,旨在减少LVLM推理过程中的幻觉。我们的方法受到观察的启发,即我们称之为干扰指令显著加剧多模态融合模块中的幻觉。ICD对标准和指令干扰的分布进行对比,从而增加对齐的不确定性,并有效地从原始分布中减去幻觉概念。通过在区分基准(POPE和MME)和生成基准(LLaVa-Bench)上进行全面实验,我们证明ICD显著减轻了对象级和属性级幻觉。此外,我们的方法不仅解决了幻觉问题,还显著增强了LVLM的一般感知和识别能力。
  • 图表
  • 解决问题
    本文试图解决LVLM模型在多模态决策和开放式生成中出现的幻觉问题,提出Instruction Contrastive Decoding (ICD)方法来减少幻觉。
  • 关键思路
    ICD方法通过对比标准分布和干扰指令分布,增加对齐不确定性,从而有效地减少幻觉,提高LVLM的感知和识别能力。
  • 其它亮点
    本文通过POPE、MME和LLaVa-Bench三个基准数据集的实验,证明了ICD方法在减少对象级别和属性级别幻觉方面的有效性,并且提高了LVLM的感知和识别能力。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论