Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition

简介

大型语言模型（LLMs）展现出了出色的上下文学习（ICL）能力。在这项研究中，我们探讨了与ICL相关的一个令人惊讶的现象：LLMs可以在单个推理调用期间同时执行多个计算上不同的ICL任务，这种能力被称为“任务叠加”。我们提供了各种LLM系列和规模的实证证据，表明即使我们训练模型一次只学习一个任务，这种现象也会出现。我们提供了理论解释，认为这种能力完全在transformers的表达能力范围内。我们还探讨了LLMs在叠加期间如何内部组合任务向量。此外，我们还展示了更大的模型可以并行解决更多ICL任务，并更好地校准其输出分布。我们的发现为LLMs的潜在能力提供了深入的洞见，进一步证实了“LLMs作为模拟器叠加”的观点，并引发了关于同时执行任务的机制的问题。
图表
解决问题

本论文旨在探究在单次推理中，大型语言模型（LLMs）能否同时执行多个不同的上下文学习任务的现象，即“任务叠加”。
关键思路

论文提供了各种LLM系列和规模的实证证据，表明即使我们将模型训练为一次只学习一个任务，这种现象也会出现。论文还探讨了LLMs在任务叠加期间如何内部组合任务向量。此外，论文还表明更大的模型可以并行解决更多的上下文学习任务，并更好地校准其输出分布。
其它亮点

论文的实验设计非常详细，使用了多个数据集，并提供了开源代码。此外，论文的发现为LLMs的潜在能力提供了新的见解，并引发了关于实现同时任务执行的机制的问题。
相关研究

与该论文相关的研究包括“GPT-3”和“XLNet”等LLMs的先前研究，以及其他关于LLMs的性能和能力的研究。

Everything Everywhere All at Once: LLMs can In-Context Learn Multiple Tasks in Superposition

评论