标题:Deepmind|Scaling Language Models: Methods, Analysis & Insights from Training Gopher(扩展语言模型:来自训练Gopher的方法、分析与见解)

作者:Jack W. Rae, Sebastian Borgeaud等

简介:本文介绍了尺度对于语言模型的影响。利用人类书面知识的存储库大数据,语言建模向智能通信系统迈进了一步,以更好地预测和理解世界。 在本文中,作者对基于变换器的语言模型在各种模型尺度中的性能进行分析——从具有数千万参数的模型到2800亿参数的模型,名为Gopher。 这些模型在152个不同的任务上进行了评估,实现了大多数任务的最先进性能。尺度收益于阅读理解、事实核查和识别有毒语言任务,但逻辑和数学推理看不到好处。作者提供对训练数据集和模型行为的整体分析,包括偏见和毒性。 最后,作者讨论了语言模型在AI安全以及减轻下游危害中的应用。

论文下载:https://storage.googleapis.com/deepmind-media/research/language-research/Training%20Gopher.pdf

内容中包含的图片若涉及版权问题,请及时与我们联系删除