Stochastic MeanFlow Policies: One-Step Generative Control with Entropic Mirror Descent

向作者提问

NEW

简介

在线离策略强化学习（RL）的性能主要取决于两个相互耦合的设计选择：策略函数的形式（即策略类）与参数更新规则。高斯策略计算高效，且其熵具有解析表达式，但难以建模多峰的动作分布；生成式策略表达能力更强，却往往需要迭代采样，或无法提供可解析计算的熵估计。在优化层面，SAC风格的软策略提升（soft policy improvement）与镜像下降法（mirror descent, MD）可分别理解为最小化两类不同的KL散度：前者将当前策略向由值函数导出的玻尔兹曼分布进行拉近，后者则对每次更新施加正则化约束，使其与上一轮策略保持接近。因此，将熵正则化与镜像下降约束相结合颇具吸引力——它既支持充分探索，又能稳定策略优化过程；然而，由此导出的目标分布往往呈现多峰特性，而单峰高斯策略对此类目标的拟合效果较差。为此，我们提出随机平均流策略（Stochastic MeanFlow Policies, SMFP），这是一种一步式生成策略类：它通过平均流（MeanFlow）变换，将高斯噪声映射为动作输出。这种随机重参数化方式不仅提供了可解析计算的熵代理函数（tractable entropy surrogate），还使得平均流策略能够在统一的目标函数下，被直接嵌入到离策略镜像下降框架中，从而实现兼具探索性与稳定性的策略改进。在七个MuJoCo基准任务上的实验表明，SMFP在性能上全面超越高斯策略与各类生成式基线方法，同时仍保持单步前向推理的高效性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在在线离策略强化学习中，如何同时实现高效探索（需高熵、可能多峰的动作分布）与稳定策略更新（需对历史策略的正则化约束），而现有高斯策略难以建模多峰分布，生成式策略又常缺乏可解析熵估计和单步推断效率。这是一个尚未被良好解决的耦合优化问题，非全新但关键瓶颈仍存。
关键思路

提出Stochastic MeanFlow Policies (SMFP)：一种基于随机重参数化的单步生成式策略，通过MeanFlow变换将各向同性高斯噪声映射为动作；该结构天然导出可解析的熵代理（surrogate），从而首次在离策略镜像下降（mirror descent）框架下统一实现软策略改进（熵正则化）与KL约束更新——即让策略既向价值诱导的Boltzmann目标移动，又紧密贴近旧策略，且该目标即使多峰也能被SMFP有效表征。
其它亮点

在7个MuJoCo基准任务（包括Hopper-v4、Walker2d-v4、HalfCheetah-v4等标准连续控制环境）上系统评测，SMFP显著优于SAC（高斯）、BCQ、BEAR（生成式）等强基线；单步前向推理，无MCMC或迭代采样；熵计算为O(1)解析式，支持端到端梯度训练；论文未提代码是否开源，但方法设计具工程友好性；值得深入的方向包括：MeanFlow结构在稀疏奖励/视觉输入下的泛化、SMFP与世界模型的联合学习、以及理论层面的收敛性保证。
相关研究

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor (ICML 2018); Mirror Descent Policy Optimization (ICML 2021); Behavior Regularized Offline Reinforcement Learning (ICLR 2021); Flow Matching for Generative Modeling (NeurIPS 2023); Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning (ICML 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问