Self-Rewarding Vision-Language Model via Reasoning Decomposition

2025年08月27日
  • 简介
    视觉-语言模型(VLMs)常常会遭遇视觉幻觉的问题,即描述图像中并不存在的内容,以及语言捷径的问题,即跳过视觉部分而仅依赖文本先验知识。这些问题的产生是因为大多数VLM的后续训练方法依赖于简单的可验证答案匹配,并且只对最终输出进行监督,而中间的视觉推理过程缺乏明确的引导。结果,VLM接收到的视觉信号稀疏,往往学会优先采用基于语言的推理而非视觉感知。为缓解这一问题,一些现有方法通过人工标注或外部大模型提取的蒸馏标签增加视觉监督。然而,人工标注费时费力且成本高昂,而外部信号无法适应不断演化的策略,容易引发分布偏移,进而可能导致奖励黑客问题。本文中,我们提出了Vision-SR1,这是一种通过强化学习实现的自我奖励方法,无需依赖外部视觉监督即可提升视觉推理能力。Vision-SR1将VLM的推理过程分解为两个阶段:视觉感知和语言推理。首先引导模型生成自包含的视觉感知,这种感知本身已足够回答问题而无需再次参考输入图像。为了验证这种自包含性,随后使用相同的VLM模型,仅以生成的感知作为输入进行语言推理,并据此计算奖励。这一自我奖励机制与对最终输出的监督相结合,提供了平衡的训练信号,从而增强了视觉感知和语言推理两方面的能力。我们的实验表明,Vision-SR1能够提升视觉推理能力,缓解视觉幻觉问题,并减少在多种视觉-语言任务中对语言捷径的依赖。
  • 作者讲解
  • 图表
  • 解决问题
    论文旨在解决视觉-语言模型(VLMs)中的两个关键问题:视觉幻觉(visual hallucinations)和语言捷径(language shortcuts)。当前的VLM后训练方法依赖于简单的答案匹配,缺乏对中间视觉推理过程的明确指导,导致模型过度依赖语言推理而忽视视觉感知。这是一个在视觉-语言理解领域中长期存在但尚未被充分解决的问题。
  • 关键思路
    论文提出Vision-SR1方法,通过自奖励机制(self-rewarding)强化视觉推理,无需依赖外部视觉监督。其核心思想是将VLM的推理过程分为两个阶段:视觉感知和语言推理。模型首先生成独立的视觉感知描述,然后仅基于该描述进行语言推理以生成奖励信号。这一思路通过内部闭环反馈机制强化视觉理解,与以往依赖人工标注或固定外部模型的方法相比具有更高的自适应性和稳定性。
  • 其它亮点
    1. 实验结果显示Vision-SR1在多个视觉-语言任务中有效缓解视觉幻觉并减少语言捷径现象。 2. 实验设计包括对视觉感知生成和语言推理阶段的独立评估。 3. 未提及是否使用开源数据集或公开代码,但强调方法无需外部监督,具有较强的泛化潜力。 4. 未来工作可探索将该方法扩展到多模态任务或更大规模的模型中。
  • 相关研究
    1. Self-supervised Learning of Pretext-Invariant Representations (SimCLR) 2. Align before Fuse: Vision and Language Representation Learning with a Separated Encoder (ALBEF) 3. Flamingo: a Visual Language Model for Few-shot Learning 4. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 5. CLIP: Connecting Text and Images
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问