在题为Training Compute-Optimal Large Language Models的论文中,研究人员发现目前的大模型竞赛中,由于大家更喜欢强调参数多,而训练数据往往不变,模型其实是训练不足的。
通过在50亿到5000亿token的数据上实验训练7000万到160亿以上参数的模型,研究人员发现参数规模应该和训练数据token数同步增大,能达到计算最优。
论文训练了名为chinchilla的计算优化模型,计算预算与Gopher一样,但参数是700亿,训练数据4倍,发现chinchilla在很大范围的下游任务上都显著超越了Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), 和 Megatron-Turing NLG (530B) 。这也意味着chinchilla用于微调和推理的计算量显著减少,大大促进了下游任务的计算量。值得注意的是,chinchilla在MMLU基准上达到了SOTA(67.5%准确率),比Gopher提升了7%。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢