Beyond SFT-to-RL: Pre-alignment via Black-Box On-Policy Distillation for Multimodal RL

向作者提问

NEW

简介

当前，大型多模态模型（LMMs）的标准训后优化流程通常包括两个阶段：首先在人工精心筛选的示范样本上进行监督微调（SFT），随后采用具备可验证奖励信号的强化学习（RLVR）。然而，SFT 阶段会引发分布偏移问题——它既无法保留模型原有的能力，也无法准确拟合监督数据所对应的理想输出分布。这一问题在多模态推理任务中尤为突出：感知错误与推理失败各自遵循不同的偏移模式，且这些偏移会在后续强化学习过程中进一步叠加、放大。为此，我们提出 PRISM——一种三阶段优化框架，其核心创新在于：在 SFT 与 RLVR 之间显式插入一个“分布对齐”阶段，以系统性缓解上述偏移。PRISM 的设计基于“在线策略蒸馏”（OPD）原理，将分布对齐建模为一个黑箱式的、响应层面的对抗博弈过程：其中策略模型（policy）作为一方，而判别器则采用混合专家（MoE）架构，内含分别专精于视觉感知与逻辑推理的独立专家模块；该判别器无需访问教师模型的 logits，即可向策略模型提供解耦的、细粒度的纠偏信号，从而引导策略逐步逼近监督数据的真实分布。尽管 126 万条公开示范数据已足以支撑广泛覆盖的 SFT 初始化，但分布对齐阶段对监督质量提出了更高要求；因此，我们额外从 Gemini 3 Flash 模型中精心构建了 11.3 万条高质量示范样本，这些样本均具备密集的视觉定位能力，并针对最难解的未解问题提供了逐步展开的推理过程。在 Qwen3-VL 模型上的实验表明，PRISM 能够在多种主流强化学习算法（GRPO、DAPO、GSPO）及各类多模态基准测试中持续提升下游 RLVR 性能：相较于传统的“SFT 直接衔接 RLVR”基线方法，PRISM 在 4B 和 8B 两种规模模型上分别将平均准确率提升了 +4.4 和 +6.0 分。我们的全部代码、训练数据及模型检查点均已开源，地址为：https://github.com/XIAO4579/PRISM。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

大型多模态模型（LMMs）在标准后训练流程（SFT → RLVR）中因监督微调（SFT）引发显著的分布偏移（distributional drift）：既损害原始感知与推理能力，又无法忠实拟合监督数据分布；该问题在多模态场景下尤为严重，因视觉感知错误与符号推理失败遵循不同漂移模式，且在后续强化学习中相互放大。
关键思路

提出PRISM三阶段流水线，在SFT与RLVR之间插入显式的‘分布对齐’阶段；其核心是基于在线策略蒸馏（OPD）思想，构建一个黑盒、响应级对抗博弈框架——策略网络与MoE判别器（含专用感知专家和推理专家）进行对抗训练，实现无需教师logits的解耦式校正信号，从而将策略分布精准拉回高质量监督分布。
其它亮点

① 构建113K高保真新数据集（Gemini 3 Flash生成），聚焦最难未解题，含密集视觉定位与逐步推理；② 在Qwen3-VL（4B/8B）上验证PRISM普适性：显著提升多种RL算法（GRPO/DAPO/GSPO）性能，平均准确率+4.4/+6.0点；③ 全流程开源：代码、113K新数据、模型检查点均已发布至GitHub；④ 首次将MoE判别器与响应级对抗蒸馏引入LMM后训练对齐，为多模态分布控制提供新范式。
相关研究

Reinforcement Learning from Human Feedback (RLHF) for Language Models; Multimodal RLVR (e.g., 'Reward Modeling for Vision-Language Reasoning', ACL 2023); On-Policy Distillation (OPD) in RL (e.g., 'Policy Distillation via On-Policy Sampling', NeurIPS 2022); Mixture-of-Experts for Multimodal Understanding (e.g., 'MoE-VL: Scaling Vision-Language Models with Sparse Experts', CVPR 2024); Distribution Alignment in LLM Post-Training (e.g., 'DAP: Distribution-Aware Post-Training', ICLR 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问