Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models

2024年06月30日
  • 简介
    尽管大型视觉语言模型(LVLM)在理解视觉信息方面已经很先进,但它们仍然存在多模式幻觉。一个自然的担忧是,在多模式交互过程中,生成的幻觉可能会影响LVLM的后续生成。因此,我们提出了一个问题:当LVLM面临与先前生成的幻觉相关的查询时,即使存在基础的视觉信息,LVLM是否会被误导并作出错误的回应?为了回答这个问题,我们提出了一个框架,称为MMHalSnowball,用于评估LVLM在遇到生成的幻觉时的行为,其中LVLM需要在一个精心策划的幻觉对话中回答特定的视觉问题。关键是,我们的实验表明,开源LVLM的性能下降了至少31%,表明LVLM容易接受生成的幻觉并做出虚假的声明,而如果没有干扰,它们本不会支持这些声明。我们将这种现象称为多模式幻觉滚雪球。为了缓解这种现象,我们进一步提出了一种无需训练的方法,称为残留视觉解码,其中我们使用从残留视觉输入派生的输出分布来修正LVLM的输出分布,为模型提供直接访问视觉信息的能力。实验表明,我们的方法可以减轻超过24%的滚雪球式多模式幻觉,同时保持模型的能力。
  • 图表
  • 解决问题
    论文旨在解决LVLMs在多模态交互中产生幻觉的问题,并探讨这些幻觉是否会影响LVLMs的后续生成。
  • 关键思路
    论文提出了一个名为MMHalSnowball的框架来评估LVLMs在产生幻觉时的行为,并提出了一种名为Residual Visual Decoding的方法来缓解多模态幻觉的影响。
  • 其它亮点
    论文发现,开源LVLMs的性能下降至少31%,表明LVLMs容易接受产生的幻觉并做出错误的回答。作者提出的Residual Visual Decoding方法可以缓解超过24%的多模态幻觉,同时保持模型的能力。
  • 相关研究
    在相关研究方面,最近的研究包括“Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks”和“Multimodal Transformer for Unaligned Multimodal Language Sequences”。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论