- 简介大型视觉-语言模型(LVLMs)越来越擅长从视觉输入生成具有上下文详细和连贯性的响应。然而,它们在多模态决策和开放式生成方面的应用受到幻觉率显著影响,即生成的文本不准确地表示视觉内容。为了解决这个问题,本文介绍了指令对比解码(ICD)方法,这是一种旨在减少LVLM推理过程中幻觉的新方法。我们的方法受到我们观察到的现象的启发,即我们所谓的干扰指令显著加剧了多模态融合模块中的幻觉。ICD通过对比标准和干扰指令的分布,从而增加对齐的不确定性,并有效地从原始分布中减去幻觉概念。通过对区分性基准(POPE和MME)和生成基准(LLaVa-Bench)进行全面实验,我们证明了ICD显著减轻了对象级和属性级幻觉。此外,我们的方法不仅解决了幻觉问题,而且显著增强了LVLM的一般感知和识别能力。
- 图表
- 解决问题论文旨在解决LVLMs在多模态决策和开放式生成中出现的幻觉问题,提出了Instruction Contrastive Decoding (ICD)方法。
- 关键思路ICD方法通过对比标准分布和干扰分布,减少幻觉现象,从而提高LVLMs的感知和识别能力。
- 其它亮点论文在POPE、MME和LLaVa-Bench数据集上进行了全面的实验,证明了ICD方法显著减少了物体级和属性级幻觉,同时增强了LVLMs的感知和识别能力。
- 在相关研究中,最近还有一些与LVLMs幻觉问题相关的研究,如《Learning to Contrast the Counterfactual Samples for Robust Visual Question Answering》。
沙发等你来抢
去评论
评论
沙发等你来抢