【标题】In-context Reinforcement Learning with Algorithm Distillation

【作者团队】Michael Laskin, Luyu Wang, Junhyuk Oh, Emilio Parisotto, Stephen Spencer, Richie Steigerwald等

【发表日期】2022.10.25

【论文链接】https://arxiv.org/pdf/2210.14215.pdf

【推荐理由】近期,DeepMind研究人员根据实验结果,提出一种可行性:任何强化学习(RL)算法都可通过模仿学习“蒸馏”成足够强大的序列模型(如Transformer),并将其转化成上下文RL算法。上述的“蒸馏”则为DeepMind提出的算法蒸馏 (AD),这是一种通过使用因果序列模型对其训练历史进行建模,将RL 算法提取到神经网络中的方法。算法蒸馏将学习到强化学习视为跨集顺序预测问题。学习历史数据集由源 RL 算法生成,然后通过自回归预测动作来训练因果变换器,并将其先前的学习历史作为上下文。与提取学习后或专家序列的顺序策略预测架构不同,AD 能够完全在上下文中改进其策略,而无需更新其网络参数。相应实验也证明 AD 可以在具有稀疏奖励、组合任务结构和基于像素的观察的环境中进行语境强化学习,并发现AD学习的RL算法比产生源数据的算法更具有数据效率。