- 简介大型视觉-语言模型(LVLM)在下游多模态任务的视觉-语言理解方面展现了卓越的能力。尽管取得了成功,LVLM在复杂的生成任务中仍然会生成幻觉内容,导致视觉输入与生成内容之间的不一致。为了解决这一问题,一些方法引入了推理时的干预措施,如对比解码和注意力校正,以减少对语言先验的过度依赖。然而,这些方法忽视了由虚假的跨模态相关性引起的幻觉。在本文中,我们提出了一种无需训练的跨模态相关性校准解码(IMCCD)方法,以减轻LVLM中的幻觉现象。该方法设计了一个跨模态值增强解码(CMVED)模块,通过一种新颖的对比解码机制来缓解幻觉。在估计扭曲分布的过程中,CMVED屏蔽了与显著跨模态注意力权重相关的值向量,从而解决了单一模态过度依赖和误导性的跨模态相关性问题。此外,一个内容驱动的注意力精炼(CDAR)模块优化了跨模态注意力权重,引导LVLM关注重要的视觉内容。实验结果在多个幻觉基准测试中验证了我们方法在减少LVLM文本生成幻觉方面的优越性,超过了现有的最先进技术。我们的代码将在https://github.com/lijm48/IMCCD上提供。
-
- 图表
- 解决问题论文试图解决大型视觉-语言模型(LVLMs)在复杂生成任务中产生的幻觉问题,即生成内容与视觉输入之间存在不一致的现象。这是一个现有LVLMs普遍面临的问题,但尚未得到充分解决。
- 关键思路关键思路是提出了一种无需训练的Inter-Modality Correlation Calibration Decoding (IMCCD) 方法,通过Cross-Modal Value-Enhanced Decoding (CMVED) 模块和Content-Driven Attention Refinement (CDAR) 模块来缓解幻觉问题。CMVED通过掩码显著的跨模态注意力权重来减少单一模态依赖和误导性的跨模态关联,而CDAR则通过优化跨模态注意力权重使LVLM更专注于重要的视觉内容。相比现有方法,IMCCD不仅减少了对语言先验的过度依赖,还特别针对了由误导性跨模态关联引发的幻觉。
- 其它亮点该研究在多个幻觉基准测试中验证了IMCCD的有效性,并证明其优于现有的最先进方法。此外,作者提供了开源代码(https://github.com/lijm48/IMCCD),便于后续研究者复现和进一步改进。未来值得继续深入的研究方向包括如何更好地理解跨模态关联的本质以及如何将这种方法扩展到更多类型的多模态任务。
- 最近在这个领域内,一些相关研究包括:1. 引入对比解码和注意力修正等推理时干预措施以减少语言先验的过度依赖;2. 提出基于图神经网络的方法来增强多模态信息融合;3. 探索利用预训练模型进行微调以改善特定任务的表现。具体可参考以下论文标题:《Contrastive Decoding for Mitigating Hallucinations in Vision-Language Models》、《Attention Rectification in Multi-modal Learning》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流