Beyond Chinchilla-Optimal: Accounting for Inference in Language Model Scaling Laws

2023年12月31日
  • 简介
    大型语言模型(LLM)的扩展定律是经验公式,用于估计随着参数数量和训练数据的增加,模型质量的变化。然而,这些公式,包括流行的DeepMind Chinchilla扩展定律,忽略了推理成本。我们修改了Chinchilla扩展定律,以计算训练和部署给定质量和推理需求的模型的最佳LLM参数数量和预训练数据大小。我们进行了基于计算预算和实际成本的分析,并发现LLM研究人员预计有相当大的推理需求(约10亿个请求)应该训练比Chinchilla最优更小更长的模型。
  • 图表
  • 解决问题
    该论文旨在修改现有的大型语言模型(LLM)缩放定律,以考虑推理成本,并计算达到所需质量和推理需求的最佳LLM参数数目和预训练数据大小。
  • 关键思路
    该论文提出了一种修改后的Chinchilla缩放定律,以计算训练和部署LLM模型的最佳参数数量和预训练数据大小,以达到所需的质量和推理需求。
  • 其它亮点
    该论文的实验设计针对计算预算和实际成本,发现对于预期具有相当大的推理需求(约10亿个请求),LLM研究人员应该训练比Chinchilla-optimal更小但更长的模型。该论文还提供了开源代码。
  • 相关研究
    最近的相关研究包括《On the Cost of Computation and Inference of Convolutional Neural Networks: A Comprehensive Study》、《Efficient Transformers: A Survey of Learning Paradigms》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论