In-Context Language Learning: Architectures and Algorithms

简介

大规模神经语言模型表现出令人惊异的上下文学习（ICL）能力：它们可以从输入的数据集中推断出新的功能。我们目前对ICL何时以及如何出现的理解大多来自于训练在极其简单的学习问题上的语言模型，如线性回归和联想回忆。这些模型问题与训练在大型文本语料库上的LMs展示的“真实”ICL之间存在显著差距，后者不仅涉及检索和函数逼近，还包括自由生成语言和其他结构化输出。本文通过一个新的模型问题家族——上下文语言学习（ICLL）来研究ICL。在ICLL中，LMs被呈现一组来自形式语言的字符串，并必须生成相同语言的其他字符串。我们专注于在随机有限自动机生成的正则语言中进行上下文学习。我们评估了各种神经序列模型（包括几个RNN、Transformer和状态空间模型变体）在正则ICLL任务上的表现，旨在回答三个问题：（1）哪些模型类可以在实践中胜任ICLL？（2）成功模型实现ICLL的算法解决方案是什么？（3）什么架构改变可以提高表现不佳的模型的ICLL？我们首先展示了Transformer在ICLL任务上显著优于具有循环或卷积表示的神经序列模型。接下来，我们提供证据表明，它们能够做到这一点依赖于专门的“n-gram heads”（感应头的高阶变体），它们计算输入条件下一个标记的分布。最后，我们展示将这些heads硬编码到神经模型中不仅可以提高ICLL的表现，还可以提高自然语言建模的表现——在SlimPajama数据集上，340M参数模型的困惑度可以提高1.14个点（6.7%）。
图表
解决问题

本文旨在研究大规模神经语言模型中的上下文学习（ICL）现象，并通过新的模型问题ICLL来探究ICL的产生和实现方式。ICLL是指将正则语言作为输入，要求模型生成与该语言相同的字符串。作者试图回答哪些模型能够实现ICLL，成功的模型实现ICLL的算法解决方案是什么，以及哪些架构变化可以提高ICLL的性能。
关键思路

本文通过研究ICLL问题，发现Transformers模型在ICLL任务上表现显著优于循环或卷积模型，并且其成功之处在于使用了特殊的n-gram heads来计算输入条件下的下一个token分布。作者还将这些heads硬编码到神经模型中，提高了自然语言建模的性能。
其它亮点

本文研究了大规模神经语言模型中的上下文学习现象，提出了新的ICLL模型问题来探究ICL的产生和实现方式。作者发现Transformers模型在ICLL任务上表现优异，并且成功之处在于使用了特殊的n-gram heads来计算输入条件下的下一个token分布。作者还将这些heads硬编码到神经模型中，提高了自然语言建模的性能。实验使用了正则语言数据集，并开源了代码。
相关研究

近期相关研究包括使用神经网络进行自动机推导的工作，以及使用神经网络进行语言建模的工作。

许愿开讲

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论