【标题】Hypernetworks for Zero-shot Transfer in Reinforcement Learning

【作者团队】Sahand Rezaei-Shoshtari, Charlotte Morissette, Francois Robert Hogan, Gregory Dudek, David Meger

【发表日期】2022.11.28

【论文链接】https://arxiv.org/pdf/2211.15457.pdf

【推荐理由】在本文中,通过基于 TD 的新型训练目标和来自训练任务的一组近乎最优的 RL 解决方案的数据,训练超网络在一系列看不见的任务条件下生成行为。这项工作涉及元 RL、上下文 RL 和迁移学习,特别关注测试时的零样本性能,这是通过了解任务参数(也称为上下文)实现的。本文的技术方法是基于将每个 RL 算法视为从 MDP 细节到接近最优值函数和策略的映射,并寻求使用可以生成接近最优值函数和策略的超网络来近似它,给定参数MDP。本文表明,在某些条件下,这种映射可以被视为监督学习问题。文中凭经验评估了此方法在 DeepMind Control Suite 的一系列连续控制任务上零样本迁移到新奖励和转换动态的有效性。本文的方法展示了多任务和元 RL 方法对基线的显著改进。