【标题】Human-Timescale Adaptation in an Open-Ended Task Space

【作者团队】Adaptive Agent Team

【发表日期】2023.1.18

【论文链接】https://arxiv.org/pdf/2301.07608.pdf

【推荐理由】基础模型在监督和自我监督学习问题中表现出令人印象深刻的适应性和可扩展性,但到目前为止,这些成功还没有完全转化为强化学习 (RL)。DeepMind中自适应智能体团队证明了大规模训练 RL 智能体会产生一种通用的上下文学习算法,该算法可以像人类一样快速地适应开放式新颖的具身 3D 问题。在广阔的环境动态空间中,其自适应智能体 (AdA) 展示了即时假设驱动的探索、对所获得知识的有效利用,并且可以通过第一人称演示成功地得到提示。适应性来自三个要素:(1) 跨大量、平滑和多样化的任务分布的元强化学习,(2) 策略参数化为大规模的基于注意力的记忆架构,(3) 一种有效的自动化课程,可以优先处理代理人能力前沿的任务。研究展示了关于网络大小、内存长度和训练任务分布丰富度的特征缩放法则。此研究结果会为越来越通用和自适应的 RL智能体奠定基础。

内容中包含的图片若涉及版权问题,请及时与我们联系删除