Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning

简介

“上下文学习”是指模型在推理过程中不需改变其参数的学习能力。模型（例如transformers）的输入包括上下文（即实例-标签对）和查询实例。在推理过程中，模型能够根据上下文为查询实例输出标签。上下文学习的一个可能的解释是，（线性）transformers的前向传递实现了对上下文中实例-标签对的梯度下降迭代。在本文中，我们通过构造证明了transformers在前向传递中也可以实现时间差分（TD）学习，这一现象被我们称为“上下文TD”。我们通过理论分析和多任务TD算法的训练证明了上下文TD的出现。此外，我们证明了transformers在前向传递中具有足够的表达能力，能够实现许多其他策略评估算法，包括残差梯度、带资格追踪的TD和平均回报TD。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

探究transformers模型在inference时的in-context learning和in-context TD learning能力
关键思路

证明transformers模型可以在inference时实现TD learning，提出in-context TD learning的概念，并证明transformers模型足够表达其他策略评估算法
其它亮点

使用多任务TD算法训练transformers模型，实现in-context TD learning，并进行理论分析。证明transformers模型能够表达多种策略评估算法。
相关研究

最近相关研究包括：'Attention is All You Need'，'BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding'，'Improving Language Understanding with Unsupervised Learning'等。

Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning

提问交流

提问交流