来自今天的爱可可AI前沿推介

[LG] General-Purpose In-Context Learning by Meta-Learning Transformers

L Kirsch, J Harrison, J Sohl-Dickstein, L Metz
[Google Research]

基于Transformer元学习的通用上下文学习

简介:本文显示,像Transformer这样的黑盒模型可以被元训练,成为通用的上下文学习器。观察到在大型模型和大量任务的情况下产生的学习如何学习,以及内存或模型状态的大小决定了元训练的性能。建议采取可行的干预措施,如有偏差的数据分布和优化器来改善元学习的结果,然而任意的输入/输出大小的应用和大的输入处理仍然是问题。

摘要:现代机器学习要求系统设计者指定学习管道的各个方面,如损失、架构和优化器。而元学习,或者说学习如何学习,旨在学习这些方面,并承诺以更少的人工努力释放更大的能力。元学习的一个特别雄心勃勃的目标是,从头开始训练通用的上下文学习算法,只用具有最小归纳偏差的黑盒模型。这样的模型接受训练数据,并在广泛的问题中产生测试集预测,而不需要明确定义推理模型、训练损失或优化算法。本文表明Transformer和其他黑盒模型可以被元训练成通用的上下文学习器。本文描述了由模型大小、任务数量和元优化的变化引起的泛化算法、记忆算法和根本无法进行元训练的算法之间的阶段转换。本文进一步表明,元训练算法的能力受到决定下一次预测的可访问状态大小(内存)的瓶颈,而不像标准模型那样被认为是受到参数数量的瓶颈。最后,本文提出一些实际的干预措施,如偏差训练分布,改善通用学习算法的元训练和元泛化。

论文链接https://arxiv.org/abs/2212.04458

图片

图片

图片

图片

内容中包含的图片若涉及版权问题,请及时与我们联系删除