AGLA: Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention

2024年06月18日
  • 简介
    尽管大型视觉语言模型(LVLMs)在各种多模态任务中取得了巨大成功,但它们面临着普遍存在的物体幻觉问题,即生成的文本响应与给定图像中的真实对象不一致。本文调查了各种LVLMs,并确定了对区分性局部图像特征注意力不足是物体幻觉的一个根本原因。具体来说,LVLMs主要关注与提示无关的全局图像特征,而无法捕捉与提示相关的局部特征,从而削弱了LVLMs的视觉基础能力,导致幻觉。为此,我们提出了全局和局部注意力组装(AGLA)方法,这是一种无需训练且即插即用的方法,通过同时探索全局特征和局部特征来缓解物体幻觉。我们的方法展示了一种图像提示匹配方案,从图像中捕捉提示相关的局部特征,从而得到一个增强的输入图像视图,其中保留了提示相关内容,而无关的干扰则被屏蔽。通过增强的视图,可以通过整合原始图像的生成全局特征和增强图像的区分性局部特征来得出校准的解码分布。广泛的实验表明,AGLA始终缓解物体幻觉,并增强了LVLMs在各种区分性和生成基准测试中的一般感知能力。我们的代码将在https://github.com/Lackel/AGLA上发布。
  • 图表
  • 解决问题
    论文旨在解决大型视觉语言模型中存在的物体幻觉问题,即生成的文本响应与给定图像中的实际物体不一致的问题。
  • 关键思路
    论文提出了一种名为AGLA的方法,它是一种无需训练且即插即用的方法,通过同时探索全局特征和局部特征来减轻对象幻觉问题。
  • 其它亮点
    论文的方法AGLA通过捕捉与提示相关的局部图像特征,从而提高了LVLMs的视觉基础能力,从而减轻了对象幻觉问题。实验结果表明,AGLA能够在各种判别和生成基准测试中持续减轻对象幻觉问题并增强LVLMs的感知能力。论文的代码将在https://github.com/Lackel/AGLA上发布。
  • 相关研究
    在这个领域中,最近进行了许多相关研究,例如:《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论