Transformers Learn Temporal Difference Methods for In-Context Reinforcement Learning

2024年05月22日
  • 简介
    “上下文学习”是指模型在推理过程中不需改变其参数的学习能力。模型(例如transformers)的输入包括上下文(即实例-标签对)和查询实例。在推理过程中,模型能够根据上下文为查询实例输出标签。上下文学习的一个可能的解释是,(线性)transformers的前向传递实现了对上下文中实例-标签对的梯度下降迭代。在本文中,我们通过构造证明了transformers在前向传递中也可以实现时间差分(TD)学习,这一现象被我们称为“上下文TD”。我们通过理论分析和多任务TD算法的训练证明了上下文TD的出现。此外,我们证明了transformers在前向传递中具有足够的表达能力,能够实现许多其他策略评估算法,包括残差梯度、带资格追踪的TD和平均回报TD。
  • 作者讲解
  • 图表
  • 解决问题
    探究transformers模型在inference时的in-context learning和in-context TD learning能力
  • 关键思路
    证明transformers模型可以在inference时实现TD learning,提出in-context TD learning的概念,并证明transformers模型足够表达其他策略评估算法
  • 其它亮点
    使用多任务TD算法训练transformers模型,实现in-context TD learning,并进行理论分析。证明transformers模型能够表达多种策略评估算法。
  • 相关研究
    最近相关研究包括:'Attention is All You Need','BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding','Improving Language Understanding with Unsupervised Learning'等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问