- 简介近期强化学习(RL)的发展增强了视觉-语言模型(VLMs)的推理能力。然而,在测试时更有效地扩展计算规模以提升策略探索这一方向在 VLMs 中仍较少被研究。此外,VLMs 在处理不完美的视觉感知方面仍然存在困难,这反过来影响了后续的推理过程。为此,我们提出了 NoisyRollout,这是一种简单而有效的强化学习方法,通过混合清晰图像和适度扭曲图像的轨迹,为视觉感知及由此产生的推理模式引入有针对性的多样性。在不增加额外训练成本的情况下,NoisyRollout 通过融入面向视觉的归纳偏置来增强 VLMs 的探索能力。此外,NoisyRollout 采用了一种噪声退火计划,在训练过程中逐渐降低图像失真强度,从而在训练早期从带噪声的信号中获益,同时在后期确保训练的稳定性和可扩展性。仅使用 2.1K 的训练样本,NoisyRollout 在五个涵盖推理和感知任务的跨领域基准测试中,于开源的强化学习调优模型中达到了最先进的性能,同时保持甚至提升了其在领域内任务上的表现。
-
- 图表
- 解决问题论文试图解决视觉-语言模型(VLMs)在推理和感知任务中因视觉感知不完美而导致性能下降的问题,同时探索如何通过强化学习增强策略探索能力以更高效地利用测试时计算资源。这是一个重要的问题,但尚未被充分研究。
- 关键思路论文提出了一种名为NoisyRollout的简单而有效的强化学习方法,通过将干净图像与适度扭曲的图像生成的轨迹混合,引入视觉感知和推理模式的多样性。此外,该方法采用噪声退火计划,在训练早期利用噪声信号,后期保持稳定性。这种方法无需额外的训练成本,并结合了视觉导向的归纳偏置,提升了VLMs的探索能力。
- 其它亮点1. NoisyRollout仅使用2.1K训练样本,就在5个跨域基准测试中实现了开源强化学习调整模型中的最佳性能;2. 方法不仅提高了推理任务的表现,还增强了感知任务的鲁棒性;3. 噪声退火机制确保了训练过程的稳定性和可扩展性;4. 论文验证了视觉感知改进对后续推理过程的重要影响;5. 目前暂未提及代码是否开源,但实验设计合理且涵盖了多种任务类型,值得进一步研究其泛化能力。
- 近期相关工作包括:1.《Reward is Enough》探讨了强化学习作为通用人工智能的基础;2.《Vision-Language Navigation with Cross-Modal Contrastive Learning》研究了跨模态对比学习对导航任务的影响;3.《Improving Generalization in RL via Noisy Inputs》提出通过输入噪声提升强化学习模型的泛化能力;4.《Robust Vision-Language Models with Adversarial Training》则关注对抗训练在提升VLMs鲁棒性中的作用。这些研究共同推动了视觉-语言模型在复杂环境下的适应能力。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流