大模型“研究源”告急：研究预测，2026年高质量语言数据将耗尽

数据存量的增速远低于大模型训练数据集规模的增速。

作者李梅，编辑陈彩娴，转自AI科技评论

语言模型的缩放定律（Scaling law）表明，其规模大小取决于可用数据的数量，所以在过去几年，大约有一半的语言模型是通过扩大数据量来改进性能的。

当前，在参数量上的角逐似乎已进入冷静期，然而，当许多人还在讨论模型要不要继续做大的时候，模型能不能做大的问题已经出现了。

最近，一项来自 Epoch AI Research 团队的研究向我们抛出了一个残酷的事实：模型还要继续做大，数据却不够用了。

研究人员预测了 2022 年至 2100 年间可用的图像和语言数据总量，并据此估计了未来大模型训练数据集规模的增长趋势。

结果表明：高质量的语言数据存量将在 2026 年耗尽，低质量的语言数据和图像数据的存量将分别在 2030 年至 2050 年、2030 年至 2060 年枯竭。

这意味着，如果数据效率没有显著提高或有新的数据源可用，那么到 2040 年，模型的规模增长将放缓。

对数据端的建设该重视起来了。

数据存量是大模型数据集的规模上限

数据存量预测

数据量的多少会限制大模型训练数据集的规模大小，所以要先对数据存量的增长趋势进行预测。

在预测未来语言和图像数据存量方面，研究团队开发了概率模型来预测数据累积率。

近年来无监督学习在基础模型领域大为成功，它允许我们使用少量标注数据和大量未标注数据、针对多项任务进行微调，无监督模型也被证明能够为未标注数据生成有价值的伪标签。所以，这里主要关注未标注数据的存量和累计率。

另外，要预测数据累积率，得先确定哪些因素会导致数据的增长。绝大多数数据是用户生成的，存储于社交媒体平台、博客、论坛中。所以决定某一时期产生多少数据的因素有三个：人口数量、互联网普及率和每个互联网用户产生的平均数据量。研究团队据此开发了一个用户生成内容累积率的模型。

训练数据集规模增长预测

在数据存量的预测基础上，研究人员进一步估测了未来大模型的训练数据集规模的增长趋势。

数据集规模（dataset size）在这里被定义为训练模型所依据的独特数据点（datapoint）的数量。不同领域对数据点的定义不同，对于语言数据而言，数据点即一个词，图像数据则定义为一张图像。

如果根据数据集规模的历史变化来预测未来的趋势，那结果会是“未来会继续延续历史”，这当然不够准确，因为实际上可训练模型的数据量是有限制的，最大的限制之一就是计算可用性（compute availability）。要对已有模型增加训练数据量，当然需要更多额外的计算，而计算会受到硬件供应以及购买、租用硬件的成本的制约。

所以，预测数据集规模时要将计算可用性的限制考虑进去，为此作者团队也根据计算可用性和计算优化（compute-optimal）的数据集规模做了预测。

关于模型的规模增长，有一个重要概念是 Scaling law（缩放定律），Scaling law 可用来预测给定计算预算（以 FLOP 衡量）下的模型规模和数据集规模之间的最优平衡。具体来说，最优的数据集规模与计算预算的平方根成正比。这项工作便预测了未来每年将会达到的最优训练数据集规模。

论文地址：https://arxiv.org/pdf/2211.04325.pdf

详情请查看： https://mp.weixin.qq.com/s/DB6w-lEod545eF24XUbzFg

内容中包含的图片若涉及版权问题，请及时与我们联系删除

大模型“研究源”告急：研究预测，2026年高质量语言数据将耗尽

评论列表

评论