- 简介随着多模态大语言模型(MLLMs)的广泛应用,人们越来越希望将其适应于多样化的用户需求。本文研究了通过可控解码来实现MLLMs适应性的方法。为此,我们提出了首个面向MLLMs的基于奖励引导的解码方法,并展示了其在提升模型视觉基础能力方面的应用。我们的方法包括构建用于视觉基础的奖励模型,并利用这些模型来引导MLMs的解码过程。具体来说,我们构建了两个独立的奖励模型,分别用于控制模型输出中物体识别的精确度与召回率。我们的方法能够在两个方面实现对MLLM推理过程的即时可控性:第一,通过在解码过程中控制各个奖励函数的相对重要性,使用户能够在图像描述任务中动态权衡精确率与召回率;第二,通过控制解码时搜索的广度,使用户能够在推理计算资源消耗与视觉基础能力之间进行权衡。我们在标准的物体幻觉基准测试中评估了我们的方法,结果表明该方法在MLLM推理过程中提供了显著的可控性,同时在抑制幻觉方面始终优于现有的相关方法。
-
- 图表
- 解决问题论文旨在解决多模态大语言模型(MLLMs)在适应多样化用户需求时存在的挑战,特别是在视觉基础(visual grounding)方面的可控性问题。具体来说,作者关注如何通过解码过程的控制来减少图像描述任务中的物体幻觉(object hallucination)问题。这是一个随着MLLM广泛应用而日益突出的新问题。
- 关键思路论文提出了一种新的解码方法——基于奖励引导的解码机制,用于控制MLLM的生成过程,以提升其视觉基础能力。作者构建了两个独立的奖励模型,分别用于控制生成文本中的物体精确率(precision)和召回率(recall),从而实现对解码过程的动态控制。这种方法不同于传统的模型微调或后处理方式,首次将奖励模型引入解码阶段,实现了在推理阶段对模型输出质量的细粒度控制。
- 其它亮点1. 提出了第一个用于多模态大语言模型的奖励引导解码方法。 2. 实现了在推理阶段对物体精确率与召回率的动态权衡控制。 3. 通过调整搜索广度控制测试时计算资源与视觉基础质量之间的权衡。 4. 在标准物体幻觉基准测试中显著优于现有缓解幻觉的方法。 5. 实验设计严谨,涵盖了多个视觉-语言任务和数据集,但论文未明确提及是否开源代码。
- 1. Align before Fuse: Vision-Language Pre-training with Object-Level Contrastive Learning 2. Flamingo: a Visual Language Model for In-Context Learning 3. BLIP-2: Bootstrapping Language-Image Pre-training for Vision-Language Understanding and Generation 4. LLaVA: Large Language and Vision Assistant 5. Reward Augmented Maximum Likelihood Training for Visual Captioning
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流