Better & Faster Large Language Models via Multi-token Prediction

Fabian Gloeckle,
Badr Youbi Idrissi,
Baptiste Rozière,
David Lopez-Paz,
Gabriel Synnaeve
5719
热度
NLP
2024年04月30日
  • 简介
    本文研究表明,像GPT和Llama这样的大型语言模型是通过下一个令牌的预测损失进行训练的。我们建议训练语言模型同时预测多个未来令牌,这样可以提高样本效率。具体而言,在训练语料库的每个位置,我们要求模型使用n个独立的输出头预测接下来的n个令牌,这些输出头在共享的模型主干上运行。将多令牌预测视为辅助训练任务,我们测量了在没有训练时间开销的情况下提高了下游能力。该方法对于更大的模型大小尤其有用,并且在训练多个时期时仍然具有吸引力。在生成基准测试中,收益尤其明显,例如编码,我们的模型始终比强基线高出几个百分点。我们的13B参数模型在HumanEval上解决的问题比可比的下一个令牌模型多12%,在MBPP上多17%。在小型算法任务的实验中,多令牌预测对于归纳头和算法推理能力的发展是有利的。作为额外的好处,使用4令牌预测训练的模型在推理时速度提高了多达3倍,即使使用大批量大小也是如此。
  • 图表
  • 解决问题
    多令牌预测是如何提高语言模型的效率和下游能力的?
  • 关键思路
    在训练语言模型时,采用多令牌预测的方式,即在每个位置上使用n个独立的输出头来预测接下来的n个令牌,可以提高样本效率,同时不会增加训练时间。这种方法对于大型模型尤其有用,并且可以用于多个时期的训练。实验结果表明,多令牌预测可以提高算法归纳和推理能力,并且在生成基准测试中表现出色。
  • 其它亮点
    该方法可以显著提高语言模型的效率和下游能力,特别是在生成基准测试中表现出色;使用13B参数模型,在HumanEval和MBPP上比可比的下一个令牌模型解决的问题多12%和17%;使用4令牌预测训练的模型,在推理时速度可以提高3倍;
  • 相关研究
    最近的相关研究还没有使用多令牌预测这种方法。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论