Understanding Emergent Abilities of Language Models from the Loss Perspective

简介

最近的研究对于大型模型独有的语言模型中新出现的能力的信仰提出了质疑。这种怀疑来自于两个观察结果：1）较小的模型也可以表现出高水平的新出现能力；2）对于用于测量这些能力的间断性指标存在怀疑。在本文中，我们建议从预训练损失的角度来研究新出现的能力，而不是模型大小或训练计算。我们证明了具有相同预训练损失但不同模型和数据大小的模型在各种下游任务上产生相同的性能。我们还发现，当预训练损失降至特定阈值以下时，模型在某些任务上表现出新出现的能力，而不受指标连续性的影响。在达到此阈值之前，其性能仍保持在随机猜测的水平。这启发我们重新定义新出现的能力，即在具有较低预训练损失的模型中表现出来的能力，强调这些能力不能仅通过推断具有较高预训练损失的模型的性能趋势来预测。
作者讲解·5
- 讲解视频
- 相关报道(5)
图表
解决问题

论文旨在探讨语言模型中 emergent abilities 的表现与预训练损失之间的关系，重新定义 emergent abilities 的概念，并验证该定义的正确性。
关键思路

论文提出通过预训练损失来研究 emergent abilities，并发现在预训练损失达到某个特定阈值之前，模型表现只是随机猜测的水平，达到该阈值后，模型表现才会出现 emergent abilities。
其它亮点

论文通过实验验证了新的 emergent abilities 定义的正确性，并发现预训练损失是影响 emergent abilities 的关键因素。论文同时还提供了开源代码和使用的数据集，为后续研究提供了便利。
相关研究

在相关研究方面，近期的研究主要关注于语言模型的 emergent abilities，例如《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》和《What Can You Do with a Billion Words? Finding Oovs and Emojis in Large-Scale Text Corpora》等。

Understanding Emergent Abilities of Language Models from the Loss Perspective

提问交流

提问交流