Jeff Dean等人新作：换个角度审视语言模型，规模不够发现不了

近年来，语言模型对自然语言处理 (NLP) 产生了革命性影响。众所周知，扩展语言模型，例如参数等，可以在一系列下游 NLP 任务上带来更好的性能和样本效率。在许多情况下，扩展对性能的影响通常可以通过扩展定律进行预测，一直以来，绝大多数研究者都在研究可预测现象。

相反，包括 Jeff Dean 、 Percy Liang 等在内的 16 位研究者合作的论文《 Emergent Abilities of Large Language Models 》，他们讨论了大模型不可预测现象，并称之为大型语言模型的突现能力（ emergent abilities）。所谓的突现，即有些现象不存在于较小的模型中但存在于较大的模型中，他们认为模型的这种能力是突现的。

突现作为一种想法已经在物理学、生物学和计算机科学等领域讨论了很长时间，本论文从突现的一般定义开始，该定义改编自 Steinhardt 的研究，并植根于 1972 年诺贝尔奖获得者、物理学家 Philip Anderson 的一篇名为 More Is Different 的文章。

本文探讨了模型规模的突现，通过训练计算和模型参数来衡量。具体而言，本文将大型语言模型的突现能力定义为在小规模模型中不存在、但在大规模模型中存在的能力；因此，大型模型不能通过简单地推断小规模模型的性能改进来进行预测。该研究调查了在一系列先前工作中观察到的模型突现能力，并将它们进行分类：小样本提示和增强提示等设置。

模型的这种突现能力激发了未来的研究，即为什么会获得这些能力，以及更大的规模是否会获得更多的突现能力，并强调了这项研究的重要性。

论文地址：https://arxiv.org/pdf/2206.07682.pdf

内容中包含的图片若涉及版权问题，请及时与我们联系删除

Jeff Dean等人新作：换个角度审视语言模型，规模不够发现不了

评论列表

评论