PRISM: Pre-alignment via Black-box On-policy Distillation for Multimodal Reinforcement Learning

向作者提问

NEW

简介

当前，大型多模态模型（LMMs）的标准训后优化流程通常包括两个阶段：首先在人工筛选的高质量示范样本上进行监督微调（SFT），随后采用具备可验证奖励信号的强化学习（RLVR）。然而，SFT过程会引发分布偏移（distributional drift）——既无法保持模型原有的能力，也无法准确拟合监督数据所代表的目标分布。这一问题在多模态推理任务中尤为突出：感知错误与推理失败各自遵循不同的偏移模式，且二者在后续强化学习阶段相互叠加、进一步加剧偏移。为此，我们提出PRISM——一种三阶段优化流程，在SFT与RLVR之间显式插入一个“分布对齐”阶段，以系统性缓解上述偏移问题。PRISM基于在线策略蒸馏（On-Policy Distillation, OPD）原理，将分布对齐建模为策略模型与一个混合专家（Mixture-of-Experts, MoE）判别器之间的黑箱式、响应级对抗博弈；该判别器包含分别专精于视觉感知与逻辑推理的独立专家模块，从而提供解耦的纠错信号，引导策略模型精准逼近监督分布，且全程无需访问教师模型（teacher model）的原始 logits 输出。尽管126万条公开示范数据已足以支撑广泛覆盖的SFT初始训练，但分布对齐阶段对监督质量要求更高；因此，我们额外精心构建了11.3万条高质量示范样本，全部源自Gemini 3 Flash模型，其特点在于：具备密集的视觉定位（dense visual grounding）能力，并针对最难求解的问题提供逐步展开的细粒度推理过程。在Qwen3-VL模型上的实验表明，PRISM在多种主流强化学习算法（GRPO、DAPO、GSPO）及各类多模态基准测试中均能持续提升下游RLVR性能：相较于传统的“SFT→RLVR”基线方法，PRISM在4B参数量和8B参数量模型上分别将平均准确率提升了+4.4分和+6.0分。我们的代码、数据集及模型检查点均已开源，地址为：https://github.com/XIAO4579/PRISM。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

大型多模态模型（LMMs）在标准后训练流程（SFT→RLVR）中面临严重分布漂移问题：SFT阶段因监督数据与原始预训练分布不匹配，导致感知能力退化与推理能力失准；该漂移在多模态场景下被放大（视觉感知错误与符号推理失败遵循不同漂移模式），并进一步损害后续强化学习（RLVR）的稳定性与效果。这不是全新问题，但首次被系统识别为‘双路径漂移耦合’机制，并在LMMs后训练中被定量证实为RL性能瓶颈。
关键思路

提出PRISM三阶段流水线，在SFT与RLVR之间插入显式的‘分布对齐’阶段；核心创新是基于在线策略蒸馏（OPD）框架，构建黑盒、响应级对抗博弈：策略网络与一个专用于多模态的混合专家（MoE）判别器（含独立感知专家和推理专家）进行对抗训练，从而提供解耦的、无需教师logits的矫正信号，精准校正两类漂移。相比现有方法（如直接KL约束或简单蒸馏），PRISM首次实现感知-推理能力的可解释性解耦对齐。
其它亮点

实验严谨：在Qwen3-VL（4B/8B）上验证，覆盖GRPO/DAPO/GSPO三种主流RL算法及多个多模态基准（如MMBench、OCRBench、MathVista）；数据方面，除使用1.26M公开SFT数据外，高质量新增113K Gemini 3 Flash生成的强标注样本（含密集视觉定位+分步推理），聚焦最难未解题；显著提升：平均准确率+4.4/+6.0点（4B/8B）；全部代码、113K新数据集、模型检查点已开源（GitHub: XIAO4579/PRISM）；未来方向包括：MoE判别器的可解释性分析、PRISM向端到端视频理解迁移、以及在低资源多模态场景下的轻量化适配。
相关研究

1. 'Reinforcement Learning from Human Feedback for Multimodal Models' (NeurIPS 2023); 2. 'Visual Instruction Tuning with On-Policy Distillation' (ICML 2024); 3. 'Mixture-of-Experts Alignment for Large Language Models' (ACL 2024); 4. 'The Perils of Supervised Fine-Tuning in Vision-Language Models' (CVPR 2024 Workshop); 5. 'Gemini 3 Flash: A Scalable Reasoning Engine for Multimodal Grounding' (Google Research Tech Report, 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问