Proximal Policy Distillation - 智源社区论文

向作者提问

NEW

简介

我们介绍了一种新的策略蒸馏方法——近端策略蒸馏（PPD），它将学生驱动的蒸馏和近端策略优化（PPO）相结合，以提高样本效率并利用学生策略在蒸馏过程中收集的额外奖励。为了评估我们方法的有效性，我们在包括离散动作和连续控制（ATARI、Mujoco和Procgen）的广泛强化学习环境中，将PPD与两种常见的替代方法——学生蒸馏和教师蒸馏进行比较。对于每个环境和方法，我们将蒸馏应用于一组目标学生神经网络，这些网络比教师网络小、相同（自我蒸馏）或更大。我们的研究结果表明，与典型的策略蒸馏方法相比，PPD提高了样本效率，并产生了更好的学生策略。此外，当从不完美的演示中蒸馏策略时，PPD表现出比替代方法更强的鲁棒性。该论文的代码作为一个新的Python库`sb3-distill'发布，建立在stable-baselines3之上，以促进策略蒸馏。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在提出一种新的策略蒸馏方法，即Proximal Policy Distillation (PPD)，以提高样本效率并利用在蒸馏过程中学生策略收集的额外奖励。论文通过比较PPD和两种常见的蒸馏方法，即student-distill和teacher-distill，来评估PPD的效果。
关键思路

PPD将学生驱动的蒸馏和Proximal Policy Optimization (PPO)相结合，以提高样本效率，并利用学生策略在蒸馏过程中收集的额外奖励。与传统的策略蒸馏方法相比，PPD在学生策略的性能和鲁棒性方面表现更好。
其它亮点

论文使用了多个数据集（包括ATARI，Mujoco和Procgen），并将蒸馏目标分别设置为比教师网络更小、相同（自蒸馏）或更大的学生神经网络。作者还开源了一个Python库`sbt-distill`以便于策略蒸馏。
相关研究

在这个领域中，最近的相关研究包括：Distilling Policy and Value Functions with the Distal Objective，Model Compression via Distillation and Quantization，以及Deep Model Compression: Distilling Knowledge from Noisy Teachers。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问