- 简介当前,大型多模态模型(LMMs)的标准训后优化流程通常包括两个阶段:首先在人工精心筛选的示范样本上进行监督微调(SFT),随后采用具备可验证奖励信号的强化学习(RLVR)。然而,SFT 阶段会引发分布偏移问题——它既无法保留模型原有的能力,也无法准确拟合监督数据所对应的理想输出分布。这一问题在多模态推理任务中尤为突出:感知错误与推理失败各自遵循不同的偏移模式,且这些偏移会在后续强化学习过程中进一步叠加、放大。为此,我们提出 PRISM——一种三阶段优化框架,其核心创新在于:在 SFT 与 RLVR 之间显式插入一个“分布对齐”阶段,以系统性缓解上述偏移。PRISM 的设计基于“在线策略蒸馏”(OPD)原理,将分布对齐建模为一个黑箱式的、响应层面的对抗博弈过程:其中策略模型(policy)作为一方,而判别器则采用混合专家(MoE)架构,内含分别专精于视觉感知与逻辑推理的独立专家模块;该判别器无需访问教师模型的 logits,即可向策略模型提供解耦的、细粒度的纠偏信号,从而引导策略逐步逼近监督数据的真实分布。尽管 126 万条公开示范数据已足以支撑广泛覆盖的 SFT 初始化,但分布对齐阶段对监督质量提出了更高要求;因此,我们额外从 Gemini 3 Flash 模型中精心构建了 11.3 万条高质量示范样本,这些样本均具备密集的视觉定位能力,并针对最难解的未解问题提供了逐步展开的推理过程。在 Qwen3-VL 模型上的实验表明,PRISM 能够在多种主流强化学习算法(GRPO、DAPO、GSPO)及各类多模态基准测试中持续提升下游 RLVR 性能:相较于传统的“SFT 直接衔接 RLVR”基线方法,PRISM 在 4B 和 8B 两种规模模型上分别将平均准确率提升了 +4.4 和 +6.0 分。我们的全部代码、训练数据及模型检查点均已开源,地址为:https://github.com/XIAO4579/PRISM。
-
- 图表
- 解决问题大型多模态模型(LMMs)在标准后训练流程(SFT → RLVR)中因监督微调(SFT)引发显著的分布偏移(distributional drift):既损害原始感知与推理能力,又无法忠实拟合监督数据分布;该问题在多模态场景下尤为严重,因视觉感知错误与符号推理失败遵循不同漂移模式,且在后续强化学习中相互放大。
- 关键思路提出PRISM三阶段流水线,在SFT与RLVR之间插入显式的‘分布对齐’阶段;其核心是基于在线策略蒸馏(OPD)思想,构建一个黑盒、响应级对抗博弈框架——策略网络与MoE判别器(含专用感知专家和推理专家)进行对抗训练,实现无需教师logits的解耦式校正信号,从而将策略分布精准拉回高质量监督分布。
- 其它亮点① 构建113K高保真新数据集(Gemini 3 Flash生成),聚焦最难未解题,含密集视觉定位与逐步推理;② 在Qwen3-VL(4B/8B)上验证PRISM普适性:显著提升多种RL算法(GRPO/DAPO/GSPO)性能,平均准确率+4.4/+6.0点;③ 全流程开源:代码、113K新数据、模型检查点均已发布至GitHub;④ 首次将MoE判别器与响应级对抗蒸馏引入LMM后训练对齐,为多模态分布控制提供新范式。
- Reinforcement Learning from Human Feedback (RLHF) for Language Models; Multimodal RLVR (e.g., 'Reward Modeling for Vision-Language Reasoning', ACL 2023); On-Policy Distillation (OPD) in RL (e.g., 'Policy Distillation via On-Policy Sampling', NeurIPS 2022); Mixture-of-Experts for Multimodal Understanding (e.g., 'MoE-VL: Scaling Vision-Language Models with Sparse Experts', CVPR 2024); Distribution Alignment in LLM Post-Training (e.g., 'DAP: Distribution-Aware Post-Training', ICLR 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流