Stochastic MeanFlow Policies: One-Step Generative Control with Entropic Mirror Descent

2026年05月20日
  • 简介
    在线离策略强化学习(RL)的性能主要取决于两个相互耦合的设计选择:策略函数的形式(即策略类)与参数更新规则。高斯策略计算高效,且其熵具有解析表达式,但难以建模多峰的动作分布;生成式策略表达能力更强,却往往需要迭代采样,或无法提供可解析计算的熵估计。在优化层面,SAC风格的软策略提升(soft policy improvement)与镜像下降法(mirror descent, MD)可分别理解为最小化两类不同的KL散度:前者将当前策略向由值函数导出的玻尔兹曼分布进行拉近,后者则对每次更新施加正则化约束,使其与上一轮策略保持接近。因此,将熵正则化与镜像下降约束相结合颇具吸引力——它既支持充分探索,又能稳定策略优化过程;然而,由此导出的目标分布往往呈现多峰特性,而单峰高斯策略对此类目标的拟合效果较差。为此,我们提出随机平均流策略(Stochastic MeanFlow Policies, SMFP),这是一种一步式生成策略类:它通过平均流(MeanFlow)变换,将高斯噪声映射为动作输出。这种随机重参数化方式不仅提供了可解析计算的熵代理函数(tractable entropy surrogate),还使得平均流策略能够在统一的目标函数下,被直接嵌入到离策略镜像下降框架中,从而实现兼具探索性与稳定性的策略改进。在七个MuJoCo基准任务上的实验表明,SMFP在性能上全面超越高斯策略与各类生成式基线方法,同时仍保持单步前向推理的高效性。
  • 作者讲解
  • 图表
  • 解决问题
    在在线离策略强化学习中,如何同时实现高效探索(需高熵、可能多峰的动作分布)与稳定策略更新(需对历史策略的正则化约束),而现有高斯策略难以建模多峰分布,生成式策略又常缺乏可解析熵估计和单步推断效率。这是一个尚未被良好解决的耦合优化问题,非全新但关键瓶颈仍存。
  • 关键思路
    提出Stochastic MeanFlow Policies (SMFP):一种基于随机重参数化的单步生成式策略,通过MeanFlow变换将各向同性高斯噪声映射为动作;该结构天然导出可解析的熵代理(surrogate),从而首次在离策略镜像下降(mirror descent)框架下统一实现软策略改进(熵正则化)与KL约束更新——即让策略既向价值诱导的Boltzmann目标移动,又紧密贴近旧策略,且该目标即使多峰也能被SMFP有效表征。
  • 其它亮点
    在7个MuJoCo基准任务(包括Hopper-v4、Walker2d-v4、HalfCheetah-v4等标准连续控制环境)上系统评测,SMFP显著优于SAC(高斯)、BCQ、BEAR(生成式)等强基线;单步前向推理,无MCMC或迭代采样;熵计算为O(1)解析式,支持端到端梯度训练;论文未提代码是否开源,但方法设计具工程友好性;值得深入的方向包括:MeanFlow结构在稀疏奖励/视觉输入下的泛化、SMFP与世界模型的联合学习、以及理论层面的收敛性保证。
  • 相关研究
    Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor (ICML 2018); Mirror Descent Policy Optimization (ICML 2021); Behavior Regularized Offline Reinforcement Learning (ICLR 2021); Flow Matching for Generative Modeling (NeurIPS 2023); Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning (ICML 2024)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问