- 简介“上下文学习”是指模型在推理过程中不需改变其参数的学习能力。模型(例如transformers)的输入包括上下文(即实例-标签对)和查询实例。在推理过程中,模型能够根据上下文为查询实例输出标签。上下文学习的一个可能的解释是,(线性)transformers的前向传递实现了对上下文中实例-标签对的梯度下降迭代。在本文中,我们通过构造证明了transformers在前向传递中也可以实现时间差分(TD)学习,这一现象被我们称为“上下文TD”。我们通过理论分析和多任务TD算法的训练证明了上下文TD的出现。此外,我们证明了transformers在前向传递中具有足够的表达能力,能够实现许多其他策略评估算法,包括残差梯度、带资格追踪的TD和平均回报TD。
-
- 图表
- 解决问题探究transformers模型在inference时的in-context learning和in-context TD learning能力
- 关键思路证明transformers模型可以在inference时实现TD learning,提出in-context TD learning的概念,并证明transformers模型足够表达其他策略评估算法
- 其它亮点使用多任务TD算法训练transformers模型,实现in-context TD learning,并进行理论分析。证明transformers模型能够表达多种策略评估算法。
- 最近相关研究包括:'Attention is All You Need','BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding','Improving Language Understanding with Unsupervised Learning'等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流