- 简介大型视觉语言模型(LVLMs)在整合视觉和语言上下文以生成详细内容方面表现出色,促进了图像字幕等应用。然而,使用LVLMs生成描述通常面临对象幻觉(OH)的挑战,即输出文本错误地描述了输入图像中的实际对象。虽然先前的研究将OH的发生归因于包含更多细节,但我们的研究发现现有度量标准存在技术缺陷,导致模型的可靠评估和关于OH的结论不可靠。这引发了一个问题的辩论:在基于LVLM的图像字幕中,更多的细节是否总是会引入更多的幻觉呢?在本文中,我们通过提出一种新的解码策略Differentiated Beam Decoding(DBD)以及一组可靠的新评估指标:CLIP-Precision、CLIP-Recall和CLIP-F1来解决这个问题。DBD将隐藏在视觉输入中的丰富信息并行解码为称为单元事实的不同语言表示形式。这种解码是通过一个精心设计的差分分数来实现的,该分数指导并行搜索和候选筛选。然后将选择的单元事实聚合以生成最终的字幕。我们提出的指标通过比较地面真实图像区域的嵌入组和生成的文本分区来评估图像字幕的全面性和准确性。在Visual Genome数据集上的广泛实验验证了我们方法的有效性,证明它能够生成详细的描述并保持低的幻觉水平。
- 图表
- 解决问题LVLM模型在图像描述中存在对象幻觉问题,本文试图解决这个问题并验证是否更多细节会导致更多幻觉。
- 关键思路提出了一种新的解码策略Differentiated Beam Decoding(DBD)和一组新的评估指标CLIP-Precision、CLIP-Recall和CLIP-F1,DBD通过并行将视觉输入的信息解码为称为单元事实的不同语言表示,然后聚合选定的单元事实来生成最终的标题,新的评估指标通过比较地面真实图像区域的嵌入组和生成文本分区来评估图像标题的全面性和准确性。
- 其它亮点论文使用Visual Genome数据集进行了广泛的实验,验证了DBD方法的有效性,证明其能够在保持低幻觉水平的同时生成详细的描述。此外,本文还发现了现有度量标准的技术缺陷,提出了一组新的评估指标,为该领域的研究提供了新的思路和方法。
- 最近的相关研究包括:《Show, Attend and Tell: Neural Image Caption Generation with Visual Attention》、《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》等。
沙发等你来抢
去评论
评论
沙发等你来抢