作者李梅,编辑陈彩娴,转自AI科技评论
语言模型的缩放定律(Scaling law)表明,其规模大小取决于可用数据的数量,所以在过去几年,大约有一半的语言模型是通过扩大数据量来改进性能的。
当前,在参数量上的角逐似乎已进入冷静期,然而,当许多人还在讨论模型要不要继续做大的时候,模型能不能做大的问题已经出现了。
最近,一项来自 Epoch AI Research 团队的研究向我们抛出了一个残酷的事实:模型还要继续做大,数据却不够用了。
研究人员预测了 2022 年至 2100 年间可用的图像和语言数据总量,并据此估计了未来大模型训练数据集规模的增长趋势。
结果表明:高质量的语言数据存量将在 2026 年耗尽,低质量的语言数据和图像数据的存量将分别在 2030 年至 2050 年、2030 年至 2060 年枯竭。
这意味着,如果数据效率没有显著提高或有新的数据源可用,那么到 2040 年,模型的规模增长将放缓。
对数据端的建设该重视起来了。
数据存量预测
数据量的多少会限制大模型训练数据集的规模大小,所以要先对数据存量的增长趋势进行预测。
在预测未来语言和图像数据存量方面,研究团队开发了概率模型来预测数据累积率。
近年来无监督学习在基础模型领域大为成功,它允许我们使用少量标注数据和大量未标注数据、针对多项任务进行微调,无监督模型也被证明能够为未标注数据生成有价值的伪标签。所以,这里主要关注未标注数据的存量和累计率。
另外,要预测数据累积率,得先确定哪些因素会导致数据的增长。绝大多数数据是用户生成的,存储于社交媒体平台、博客、论坛中。所以决定某一时期产生多少数据的因素有三个:人口数量、互联网普及率和每个互联网用户产生的平均数据量。研究团队据此开发了一个用户生成内容累积率的模型。
训练数据集规模增长预测
在数据存量的预测基础上,研究人员进一步估测了未来大模型的训练数据集规模的增长趋势。
数据集规模(dataset size)在这里被定义为训练模型所依据的独特数据点(datapoint)的数量。不同领域对数据点的定义不同,对于语言数据而言,数据点即一个词,图像数据则定义为一张图像。
如果根据数据集规模的历史变化来预测未来的趋势,那结果会是“未来会继续延续历史”,这当然不够准确,因为实际上可训练模型的数据量是有限制的,最大的限制之一就是计算可用性(compute availability)。要对已有模型增加训练数据量,当然需要更多额外的计算,而计算会受到硬件供应以及购买、租用硬件的成本的制约。
所以,预测数据集规模时要将计算可用性的限制考虑进去,为此作者团队也根据计算可用性和计算优化(compute-optimal)的数据集规模做了预测。
关于模型的规模增长,有一个重要概念是 Scaling law(缩放定律),Scaling law 可用来预测给定计算预算(以 FLOP 衡量)下的模型规模和数据集规模之间的最优平衡。具体来说,最优的数据集规模与计算预算的平方根成正比。这项工作便预测了未来每年将会达到的最优训练数据集规模。
论文地址:https://arxiv.org/pdf/2211.04325.pdf
详情请查看: https://mp.weixin.qq.com/s/DB6w-lEod545eF24XUbzFg
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢