Better & Faster Large Language Models via Multi-token Prediction

简介

本文研究表明，像GPT和Llama这样的大型语言模型是通过下一个令牌的预测损失进行训练的。我们建议训练语言模型同时预测多个未来令牌，这样可以提高样本效率。具体而言，在训练语料库的每个位置，我们要求模型使用n个独立的输出头预测接下来的n个令牌，这些输出头在共享的模型主干上运行。将多令牌预测视为辅助训练任务，我们测量了在没有训练时间开销的情况下提高了下游能力。该方法对于更大的模型大小尤其有用，并且在训练多个时期时仍然具有吸引力。在生成基准测试中，收益尤其明显，例如编码，我们的模型始终比强基线高出几个百分点。我们的13B参数模型在HumanEval上解决的问题比可比的下一个令牌模型多12％，在MBPP上多17％。在小型算法任务的实验中，多令牌预测对于归纳头和算法推理能力的发展是有利的。作为额外的好处，使用4令牌预测训练的模型在推理时速度提高了多达3倍，即使使用大批量大小也是如此。
图表
解决问题

多令牌预测是如何提高语言模型的效率和下游能力的？
关键思路

在训练语言模型时，采用多令牌预测的方式，即在每个位置上使用n个独立的输出头来预测接下来的n个令牌，可以提高样本效率，同时不会增加训练时间。这种方法对于大型模型尤其有用，并且可以用于多个时期的训练。实验结果表明，多令牌预测可以提高算法归纳和推理能力，并且在生成基准测试中表现出色。
其它亮点

该方法可以显著提高语言模型的效率和下游能力，特别是在生成基准测试中表现出色；使用13B参数模型，在HumanEval和MBPP上比可比的下一个令牌模型解决的问题多12％和17％；使用4令牌预测训练的模型，在推理时速度可以提高3倍；
相关研究

最近的相关研究还没有使用多令牌预测这种方法。

Better & Faster Large Language Models via Multi-token Prediction

评论