算法蒸馏，DeepMind推出可探索的预训练强化学习

【标题】In-context Reinforcement Learning with Algorithm Distillation

【作者团队】Michael Laskin, Luyu Wang, Junhyuk Oh, Emilio Parisotto, Stephen Spencer, Richie Steigerwald等

【发表日期】2022.10.25

【论文链接】https://arxiv.org/pdf/2210.14215.pdf

【推荐理由】近期，DeepMind研究人员根据实验结果，提出一种可行性：任何强化学习（RL）算法都可通过模仿学习“蒸馏”成足够强大的序列模型（如Transformer），并将其转化成上下文RL算法。上述的“蒸馏”则为DeepMind提出的算法蒸馏 (AD)，这是一种通过使用因果序列模型对其训练历史进行建模，将RL 算法提取到神经网络中的方法。算法蒸馏将学习到强化学习视为跨集顺序预测问题。学习历史数据集由源 RL 算法生成，然后通过自回归预测动作来训练因果变换器，并将其先前的学习历史作为上下文。与提取学习后或专家序列的顺序策略预测架构不同，AD 能够完全在上下文中改进其策略，而无需更新其网络参数。相应实验也证明 AD 可以在具有稀疏奖励、组合任务结构和基于像素的观察的环境中进行语境强化学习，并发现AD学习的RL算法比产生源数据的算法更具有数据效率。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

算法蒸馏，DeepMind推出可探索的预训练强化学习

评论