【标题】Transformers are Meta-Reinforcement Learners

【作者团队】Luckeciano C. Melo

【发表日期】2022.6.14

【论文链接】https://arxiv.org/pdf/2206.06614.pdf

【推荐理由】近年来,Transformer 架构和变体在许多机器学习任务中取得了显著成功。这种成功本质上与处理长序列的能力和注意力机制中上下文相关权重的存在有关。本文认为这些能力适合元强化学习算法的核心作用。实际上,元 RL 智能体需要从一系列轨迹中推断出任务。此外,它需要一种快速的适应策略来适应新任务的策略——这可以使用自注意力机制来实现。本文提出了 TrMRL(元强化学习的转换器),这是一种使用转换器架构模拟记忆恢复机制的元 RL 智能体。它将工作记忆的最近过去联系起来,通过变换层递归地构建情景记忆。本文展示了自我注意计算了一个共识表示,该表示最小化了每一层的贝叶斯风险,并提供了有意义的特征来计算最佳动作。