- 简介大型语言模型(LLMs)展现出了出色的上下文学习(ICL)能力。在这项研究中,我们探讨了与ICL相关的一个令人惊讶的现象:LLMs可以在单个推理调用期间同时执行多个计算上不同的ICL任务,这种能力被称为“任务叠加”。我们提供了各种LLM系列和规模的实证证据,表明即使我们训练模型一次只学习一个任务,这种现象也会出现。我们提供了理论解释,认为这种能力完全在transformers的表达能力范围内。我们还探讨了LLMs在叠加期间如何内部组合任务向量。此外,我们还展示了更大的模型可以并行解决更多ICL任务,并更好地校准其输出分布。我们的发现为LLMs的潜在能力提供了深入的洞见,进一步证实了“LLMs作为模拟器叠加”的观点,并引发了关于同时执行任务的机制的问题。
- 图表
- 解决问题本论文旨在探究在单次推理中,大型语言模型(LLMs)能否同时执行多个不同的上下文学习任务的现象,即“任务叠加”。
- 关键思路论文提供了各种LLM系列和规模的实证证据,表明即使我们将模型训练为一次只学习一个任务,这种现象也会出现。论文还探讨了LLMs在任务叠加期间如何内部组合任务向量。此外,论文还表明更大的模型可以并行解决更多的上下文学习任务,并更好地校准其输出分布。
- 其它亮点论文的实验设计非常详细,使用了多个数据集,并提供了开源代码。此外,论文的发现为LLMs的潜在能力提供了新的见解,并引发了关于实现同时任务执行的机制的问题。
- 与该论文相关的研究包括“GPT-3”和“XLNet”等LLMs的先前研究,以及其他关于LLMs的性能和能力的研究。
沙发等你来抢
去评论
评论
沙发等你来抢