麦吉尔大学&Mila-Quebec人工智能研究所|强化学习中零样本传输的超网络

【标题】Hypernetworks for Zero-shot Transfer in Reinforcement Learning

【作者团队】Sahand Rezaei-Shoshtari, Charlotte Morissette, Francois Robert Hogan, Gregory Dudek, David Meger

【发表日期】2022.11.28

【论文链接】https://arxiv.org/pdf/2211.15457.pdf

【推荐理由】在本文中，通过基于 TD 的新型训练目标和来自训练任务的一组近乎最优的 RL 解决方案的数据，训练超网络在一系列看不见的任务条件下生成行为。这项工作涉及元 RL、上下文 RL 和迁移学习，特别关注测试时的零样本性能，这是通过了解任务参数（也称为上下文）实现的。本文的技术方法是基于将每个 RL 算法视为从 MDP 细节到接近最优值函数和策略的映射，并寻求使用可以生成接近最优值函数和策略的超网络来近似它，给定参数MDP。本文表明，在某些条件下，这种映射可以被视为监督学习问题。文中凭经验评估了此方法在 DeepMind Control Suite 的一系列连续控制任务上零样本迁移到新奖励和转换动态的有效性。本文的方法展示了多任务和元 RL 方法对基线的显著改进。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

麦吉尔大学&Mila-Quebec人工智能研究所|强化学习中零样本传输的超网络

评论