PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

2026年04月30日
  • 简介
    当前,大型多模态模型(LMMs)的标准训后优化流程通常包括两个阶段:首先在人工筛选的高质量示范样本上进行监督微调(SFT),随后采用具备可验证奖励信号的强化学习(RLVR)。然而,SFT过程会引发分布偏移(distributional drift)——既无法保持模型原有的能力,也无法准确拟合监督数据所代表的目标分布。这一问题在多模态推理任务中尤为突出:感知错误与推理失败各自遵循不同的偏移模式,且二者在后续强化学习阶段相互叠加、进一步加剧偏移。为此,我们提出PRISM——一种三阶段优化流程,在SFT与RLVR之间显式插入一个“分布对齐”阶段,以系统性缓解上述偏移问题。PRISM基于在线策略蒸馏(On-Policy Distillation, OPD)原理,将分布对齐建模为策略模型与一个混合专家(Mixture-of-Experts, MoE)判别器之间的黑箱式、响应级对抗博弈;该判别器包含分别专精于视觉感知与逻辑推理的独立专家模块,从而提供解耦的纠错信号,引导策略模型精准逼近监督分布,且全程无需访问教师模型(teacher model)的原始 logits 输出。尽管126万条公开示范数据已足以支撑广泛覆盖的SFT初始训练,但分布对齐阶段对监督质量要求更高;因此,我们额外精心构建了11.3万条高质量示范样本,全部源自Gemini 3 Flash模型,其特点在于:具备密集的视觉定位(dense visual grounding)能力,并针对最难求解的问题提供逐步展开的细粒度推理过程。在Qwen3-VL模型上的实验表明,PRISM在多种主流强化学习算法(GRPO、DAPO、GSPO)及各类多模态基准测试中均能持续提升下游RLVR性能:相较于传统的“SFT→RLVR”基线方法,PRISM在4B参数量和8B参数量模型上分别将平均准确率提升了+4.4分和+6.0分。我们的代码、数据集及模型检查点均已开源,地址为:https://github.com/XIAO4579/PRISM。
  • 作者讲解
  • 图表
  • 解决问题
    大型多模态模型(LMMs)在标准后训练流程(SFT→RLVR)中面临严重分布漂移问题:SFT阶段因监督数据与原始预训练分布不匹配,导致感知能力退化与推理能力失准;该漂移在多模态场景下被放大(视觉感知错误与符号推理失败遵循不同漂移模式),并进一步损害后续强化学习(RLVR)的稳定性与效果。这不是全新问题,但首次被系统识别为‘双路径漂移耦合’机制,并在LMMs后训练中被定量证实为RL性能瓶颈。
  • 关键思路
    提出PRISM三阶段流水线,在SFT与RLVR之间插入显式的‘分布对齐’阶段;核心创新是基于在线策略蒸馏(OPD)框架,构建黑盒、响应级对抗博弈:策略网络与一个专用于多模态的混合专家(MoE)判别器(含独立感知专家和推理专家)进行对抗训练,从而提供解耦的、无需教师logits的矫正信号,精准校正两类漂移。相比现有方法(如直接KL约束或简单蒸馏),PRISM首次实现感知-推理能力的可解释性解耦对齐。
  • 其它亮点
    实验严谨:在Qwen3-VL(4B/8B)上验证,覆盖GRPO/DAPO/GSPO三种主流RL算法及多个多模态基准(如MMBench、OCRBench、MathVista);数据方面,除使用1.26M公开SFT数据外,高质量新增113K Gemini 3 Flash生成的强标注样本(含密集视觉定位+分步推理),聚焦最难未解题;显著提升:平均准确率+4.4/+6.0点(4B/8B);全部代码、113K新数据集、模型检查点已开源(GitHub: XIAO4579/PRISM);未来方向包括:MoE判别器的可解释性分析、PRISM向端到端视频理解迁移、以及在低资源多模态场景下的轻量化适配。
  • 相关研究
    1. 'Reinforcement Learning from Human Feedback for Multimodal Models' (NeurIPS 2023); 2. 'Visual Instruction Tuning with On-Policy Distillation' (ICML 2024); 3. 'Mixture-of-Experts Alignment for Large Language Models' (ACL 2024); 4. 'The Perils of Supervised Fine-Tuning in Vision-Language Models' (CVPR 2024 Workshop); 5. 'Gemini 3 Flash: A Scalable Reasoning Engine for Multimodal Grounding' (Google Research Tech Report, 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问