华盛顿大学&MetaAI：使用无监督领域发现扩展专家语言模型

大型语言模型通常是密集训练的：所有参数均根据所有输入进行更新。这需要在数千个GPU之间同步数十亿个参数。本文引入了一种简单而有效的方法，可以在任意文本语料库上异步训练大型稀疏语言模型。本文的方法将语料库聚类成相关文档集，针对每个集群训练一个单独的专家语言模型，并在推理时将它们组合成一个稀疏集合。这种方法通过自动发现每个专家的域，推广了尴尬的并行训练，并消除了现有稀疏语言模型的几乎所有通信开销。本文的技术在多个语料库和少样本任务上优于密集基线，并且分析表明，专家针对有意义的群集进行专业化是取得这些收益的关键。性能也随着专家数量和训练数据的规模增加而提高，表明这是一种高效且可访问的大型语言模型训练方法。

标题：Scaling Expert Language Models with Unsupervised Domain Discovery

作者：Suchin Gururangan, Margaret Li, Mike Lewis, Weijia Shi, Tim Althoff, Noah A. Smith, Luke Zettlemoyer

论文：https://papers.labml.ai/api/v1/redirect/pdf?paper_key=007ddf7ccc4211edb95839eec3084ddd

内容中包含的图片若涉及版权问题，请及时与我们联系删除

华盛顿大学&MetaAI：使用无监督领域发现扩展专家语言模型

评论