- 简介现有的大规模视觉语言模型(LVLMs)主要是将视觉编码器的图像特征与大型语言模型(LLMs)对齐,以利用其优越的文本生成能力。然而,视觉编码器和语言模型之间的规模差异可能导致LLMs在多模态理解中扮演主导角色。这种LVLM中的不平衡可能导致产生幻觉的情况。具体而言,LVLMs可能会生成与视觉输入无关的一致性描述,表明某些输出仅受上下文文本的影响。我们将这种现象称为“文本惯性”。为了解决这个问题,我们引入了一个无需训练的算法来找到图像理解和语言推理之间的平衡点。具体而言,我们适应性地调整和放大分配给图像标记的注意权重,从而赋予视觉元素更大的重要性。同时,我们将多模态输入的logits减去纯文本输入的logits,这可以帮助LVLMs不偏向LLMs。通过增强图像标记和减少LLM的顽固输出,我们可以让LVLM更多地关注图像,从而缓解文本惯性并减少LVLM中的幻觉。我们广泛的实验表明,这种方法在不同指标上显著降低了各种LVLMs的幻觉输出频率。项目页面可在https://lalbj.github.io/projects/PAI/上找到。
- 图表
- 解决问题解决LVLMs中存在的文本惯性和幻觉问题,即模型在多模态理解中过度依赖文本输入,导致输出与视觉输入不符合。
- 关键思路通过自适应调整和放大图像token的注意力权重,并从多模态输入的logit中减去纯文本输入的logit,来平衡图像理解和语言推理,减少文本惯性和幻觉。
- 其它亮点论文提出了一种无需训练的算法来解决LVLMs中存在的文本惯性和幻觉问题,实验结果表明该方法在各种LVLMs中显著降低了幻觉频率。论文使用了不同的数据集进行实验,并提供了开源代码。
- 近期的相关研究包括《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《Unified Vision-Language Pre-Training for Image Captioning and VQA》等。
沙发等你来抢
去评论
评论
沙发等你来抢