Generative RLHF-V: Learning Principles from Multi-modal Human Preference

2025年05月24日
  • 简介
    训练与人类意图对齐的多模态大语言模型(MLLMs)是一个长期的挑战。传统的仅基于评分的对齐奖励模型存在准确性低、泛化能力弱和可解释性差的问题,阻碍了对齐方法的进步,例如基于人类反馈的强化学习(RLHF)。生成式奖励模型(GRMs)利用 MLLMs 内在的推理能力来区分成对响应,但其成对比较的范式使得难以推广到可学习的奖励函数。我们提出了生成式 RLHF-V,这是一种将 GRMs 与多模态 RLHF 相结合的新颖对齐框架。我们设计了一个两阶段流程:**从强化学习中进行多模态生成式奖励建模**,其中强化学习引导 GRMs 主动捕捉人类意图,并预测正确的成对分数;以及 **基于分组比较的强化学习优化**,通过分组响应比较提升多模态 RL 的评分精度。实验结果表明,除了提高奖励模型在分布外数据上的泛化能力外,我们的框架在 7 个基准测试中提升了 4 种 MLLMs 的性能达 18.1%,而基线 RLHF 仅提升了 5.3%。我们进一步验证了生成式 RLHF-V 随着候选响应数量的增加能够实现接近线性的性能提升。我们的代码和模型可在 https://generative-rlhf-v.github.io 获取。
  • 作者讲解·1
  • 图表
  • 解决问题
    该论文试图解决多模态大语言模型(MLLMs)与人类意图对齐的问题,特别是传统基于分数的奖励模型在准确性、泛化能力和可解释性方面的不足。这是一个长期存在的挑战,并非全新的问题,但针对多模态场景下的强化学习方法仍需改进。
  • 关键思路
    论文提出了一种名为Generative RLHF-V的新框架,将生成式奖励模型(GRMs)与多模态强化学习从人类反馈(RLHF)相结合。通过两阶段管道:1)多模态生成式奖励建模,利用RL引导GRMs捕捉人类意图并预测成对得分;2)基于分组比较的RL优化,提高多模态奖励评分的精确度。这种方法突破了传统成对比较范式的局限,使奖励更具学习性和泛化能力。
  • 其它亮点
    实验结果表明,该框架显著提升了4个MLLMs在7个基准测试上的性能(提升18.1%),远超基线RLHF方法(5.3%)。此外,随着候选响应数量增加,框架表现出接近线性的改进效果。论文还提供了开源代码和模型,便于后续研究者复现和扩展。未来值得深入研究的方向包括更复杂的多模态任务以及更大规模数据集上的表现。
  • 相关研究
    近期相关研究包括:1)《Reward Modeling for Language Models via Human Feedback》探讨了基于人类反馈的奖励建模;2)《Generalized Reward Models for Multi-Modal Learning》研究了多模态场景下的奖励泛化;3)《Scaling Laws for Alignment in Large Language Models》分析了对齐方法在大规模模型中的扩展规律。这些工作为生成式奖励模型和多模态RLHF的发展奠定了基础。
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问