DeepMind最新研究：大模型背后的ICL可能与数据分布密切相关

论文链接：https://arxiv.org/abs/2205.05055
代码链接：https://github.com/deepmind/emergent_in_context_learning

传统的文本语言模型倾向于两阶段的训练模式，即首先在大规模语料库上进行预训练，然后在目标下游任务上进行微调，这种方式会受数据标注质量和过拟合等多方面的影响。最近兴起并流行的大型语言模型（large language models，LLMs）已经克服了这类问题，并且会展现出惊人的ICL能力（In-Context Learning），无需对其进行明确的下游任务微调训练，即可执行上下文相关的小样本学习任务。这一观察使语言模型研究者们抛出了这样一个问题：到底是训练阶段中的哪些方面导致了这种上下文学习呢？

本文介绍一项来自DeepMind发表在NeurIPS 2022（Oral）上的工作，在这项工作中，他们对ICL的内部机制进行了探索。作者团队表明，这一现象很大程度上是由训练数据本身的分布驱动的，当训练数据表现出特定的分布特征时，例如数据出现突发性类别分布时（即处于分布尾部的类别数量急剧增加时），ICL就会出现。而且当这些样本的语义并不固定呈现动态变化时，ICL也会进行的更彻底。而对于传统监督学习范式中，每个样本都具有明确的语义属性，这种方式更专注于基于权重的模型学习。

本文作者想到，是否可以将ICL与传统的权重式学习进行有机结合呢，在最初的实验中，模型无法兼顾二者。作者随后从数据分布的角度入手，发现当模型按照有偏的Zipfian分布[1]（幂律分布）进行训练时，这两种学习模式可以实现一种权衡。此外还有一个非常重要的发现是，这种ICL只能在Transformer架构中进行上下文学习，在传统的递归模型中则无法进行。这也侧面印证了基于Transformer的架构在语言学习中更具优势，如果能进一步研究其与训练数据分布之间的理论关系，将会更有效的促进”具有魔力“的ICL。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

DeepMind最新研究：大模型背后的ICL可能与数据分布密切相关

评论