论文链接:https://arxiv.org/abs/2205.05055
代码链接:https://github.com/deepmind/emergent_in_context_learning
传统的文本语言模型倾向于两阶段的训练模式,即首先在大规模语料库上进行预训练,然后在目标下游任务上进行微调,这种方式会受数据标注质量和过拟合等多方面的影响。最近兴起并流行的大型语言模型(large language models,LLMs)已经克服了这类问题,并且会展现出惊人的ICL能力(In-Context Learning),无需对其进行明确的下游任务微调训练,即可执行上下文相关的小样本学习任务。这一观察使语言模型研究者们抛出了这样一个问题:到底是训练阶段中的哪些方面导致了这种上下文学习呢?
本文介绍一项来自DeepMind发表在NeurIPS 2022(Oral)上的工作,在这项工作中,他们对ICL的内部机制进行了探索。作者团队表明,这一现象很大程度上是由训练数据本身的分布驱动的,当训练数据表现出特定的分布特征时,例如数据出现突发性类别分布时(即处于分布尾部的类别数量急剧增加时),ICL就会出现。而且当这些样本的语义并不固定呈现动态变化时,ICL也会进行的更彻底。而对于传统监督学习范式中,每个样本都具有明确的语义属性,这种方式更专注于基于权重的模型学习。
本文作者想到,是否可以将ICL与传统的权重式学习进行有机结合呢,在最初的实验中,模型无法兼顾二者。作者随后从数据分布的角度入手,发现当模型按照有偏的Zipfian分布[1](幂律分布)进行训练时,这两种学习模式可以实现一种权衡。此外还有一个非常重要的发现是,这种ICL只能在Transformer架构中进行上下文学习,在传统的递归模型中则无法进行。这也侧面印证了基于Transformer的架构在语言学习中更具优势,如果能进一步研究其与训练数据分布之间的理论关系,将会更有效的促进”具有魔力“的ICL。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢