- 简介视觉-语言模型中的幻觉对其可靠性构成了重大挑战,特别是在生成长标题时。当前的方法无法准确地识别和减轻这些幻觉。为了解决这个问题,我们引入了ESREAL,这是一个新颖的无监督学习框架,旨在通过准确定位和惩罚幻觉令牌来抑制幻觉的生成。最初,ESREAL基于生成的标题创建一个重建图像,并将其相应的区域与原始图像的区域对齐。这种语义重建有助于识别生成的标题中令牌级幻觉的存在和类型。随后,ESREAL通过根据幻觉类型评估对齐区域的语义相似性来计算令牌级幻觉分数。最后,ESREAL采用接近策略优化算法,根据其令牌级幻觉分数有选择地惩罚幻觉令牌。我们的框架显着降低了CHAIR指标上LLaVA、InstructBLIP和mPLUG-Owl2的幻觉,分别降低了32.81%、27.08%和7.46%。这种改进完全是通过从图像本身派生的信号实现的,无需任何图像-文本对。
- 图表
- 解决问题如何减少视觉语言模型中的幻觉生成,提高其可靠性?
- 关键思路提出了一种新的无监督学习框架ESREAL,通过准确定位和惩罚幻觉标记来抑制幻觉生成。该框架通过图像本身的信号进行改进,而无需图像-文本对。
- 其它亮点ESREAL通过重构图像来识别幻觉标记,计算标记级幻觉分数并根据分数选择性地惩罚幻觉标记。在LLaVA,InstructBLIP和mPLUG-Owl2数据集上,CHAIR指标的提高分别为32.81%,27.08%和7.46%。
- 最近的相关研究包括:1.《Generating High-Quality and Informative Conversation Responses with Sequence-to-Sequence Models》;2.《Learning to Learn from Noisy Labels with Distillation》;3.《A Comprehensive Survey of Deep Learning for Image Captioning》。
沙发等你来抢
去评论
评论
沙发等你来抢