Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization

2024年05月24日
  • 简介
    虽然大型视觉语言模型(LVLM)在理解多模态数据方面表现出了非凡的能力,但它们总是会出现幻觉,导致生成的文本与相应的图像之间存在断开。几乎所有当前的视觉对比解码方法都试图通过引入视觉不确定性信息来缓解这些幻觉,从而适当地扩大幻觉和目标之间的对比logits间隙。然而,由于全局视觉不确定性的不可控性,它们难以精确地诱导幻觉标记,这严重限制了它们在减轻幻觉方面的有效性,甚至可能导致生成不必要的幻觉。为了解决这个问题,我们进行了理论分析,以促进对比解码的有效性。基于这个洞察力,我们引入了一种新的优化策略,名为幻觉诱导优化(HIO)。这种策略旨在通过依赖于经过微调的理论偏好模型(即Contrary Bradley-Terry模型)来放大幻觉标记和目标标记之间的对比,从而促进有效的对比解码,以减轻LVLM中的幻觉。广泛的实验研究表明,我们的HIO策略可以有效地减少LVLM中的幻觉,在各种基准测试中优于现有的最先进方法。
  • 图表
  • 解决问题
    解决LVLMs中存在的幻觉问题,即生成的文本与对应的图像之间存在不一致的情况。
  • 关键思路
    提出了一种名为Hallucination-Induced Optimization (HIO)的优化策略,通过对Contrary Bradley-Terry模型进行微调,增加幻觉和目标tokens之间的对比度,从而有效减少LVLMs中的幻觉问题。
  • 其它亮点
    实验结果表明,HIO策略在不同的基准测试中都能够有效减少LVLMs中的幻觉问题,并且在各项指标上均优于当前的最先进方法。论文使用了广泛的数据集,并提供了开源代码。
  • 相关研究
    与此相关的最新研究包括:VisualBERT、ViLBERT、LXMERT等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论