Pensieve: Retrospect-then-Compare Mitigates Visual Hallucination

2024年03月21日
  • 简介
    多模态大型语言模型(MLLMs)在各种视觉语言任务中展现了显著的成功。然而,它们会遭受视觉幻觉,即生成的回答与提供的图像不一致。当它们产生幻觉时,MLLMs是否完全忽视准确的视觉提示?我们的调查表明,视觉分支可能同时支持准确和不存在的内容。为了解决这个问题,我们提出了Pensieve,这是一种受我们观察到的共享共同语义和外观特征的图像之间类比视觉幻觉启发的无需训练的方法。在推理过程中,Pensieve使MLLMs能够回顾相关图像作为参考,并将它们与测试图像进行比较。这种范式有助于MLLMs降低视觉输入错误支持的幻觉内容。在Whoops、MME、POPE和LLaVA Bench上进行的实验表明,Pensieve在减轻视觉幻觉方面具有很高的效果,超过其他先进的解码策略。此外,Pensieve有助于MLLMs识别图像中的细节,增强图像描述的特定性。
  • 图表
  • 解决问题
    解决问题:论文旨在解决多模态大语言模型(MLLMs)在视觉语言任务中出现视觉幻觉的问题。这是否是一个新问题?
  • 关键思路
    关键思路:论文提出了Pensieve,一种训练-free的方法,通过在推理过程中引入相关图像作为参考,帮助MLLMs降低视觉幻觉的影响,并提高图像描述的特异性。
  • 其它亮点
    其他亮点:论文在Whoops、MME、POPE和LLaVA Bench数据集上进行了实验,证明了Pensieve在减轻视觉幻觉方面的有效性,并超过了其他先进的解码策略。此外,Pensieve还有助于MLLMs识别图像细节和增强图像描述的特异性。
  • 相关研究
    相关研究:最近的相关研究包括:《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论