Proximal Policy Distillation

2024年07月21日
  • 简介
    我们介绍了一种新的策略蒸馏方法——近端策略蒸馏(PPD),它将学生驱动的蒸馏和近端策略优化(PPO)相结合,以提高样本效率并利用学生策略在蒸馏过程中收集的额外奖励。为了评估我们方法的有效性,我们在包括离散动作和连续控制(ATARI、Mujoco和Procgen)的广泛强化学习环境中,将PPD与两种常见的替代方法——学生蒸馏和教师蒸馏进行比较。对于每个环境和方法,我们将蒸馏应用于一组目标学生神经网络,这些网络比教师网络小、相同(自我蒸馏)或更大。我们的研究结果表明,与典型的策略蒸馏方法相比,PPD提高了样本效率,并产生了更好的学生策略。此外,当从不完美的演示中蒸馏策略时,PPD表现出比替代方法更强的鲁棒性。该论文的代码作为一个新的Python库`sb3-distill'发布,建立在stable-baselines3之上,以促进策略蒸馏。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在提出一种新的策略蒸馏方法,即Proximal Policy Distillation (PPD),以提高样本效率并利用在蒸馏过程中学生策略收集的额外奖励。论文通过比较PPD和两种常见的蒸馏方法,即student-distill和teacher-distill,来评估PPD的效果。
  • 关键思路
    PPD将学生驱动的蒸馏和Proximal Policy Optimization (PPO)相结合,以提高样本效率,并利用学生策略在蒸馏过程中收集的额外奖励。与传统的策略蒸馏方法相比,PPD在学生策略的性能和鲁棒性方面表现更好。
  • 其它亮点
    论文使用了多个数据集(包括ATARI,Mujoco和Procgen),并将蒸馏目标分别设置为比教师网络更小、相同(自蒸馏)或更大的学生神经网络。作者还开源了一个Python库`sbt-distill`以便于策略蒸馏。
  • 相关研究
    在这个领域中,最近的相关研究包括:Distilling Policy and Value Functions with the Distal Objective,Model Compression via Distillation and Quantization,以及Deep Model Compression: Distilling Knowledge from Noisy Teachers。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问