Tiny Language Models Come of Age

用GPT-3.5/GPT-4生成的儿童故事书训练微型语言模型,可以生成流畅多样的故事,语法近乎完美,同时展现推理能力。
微软的研究人员训练了更简单的语言模型来理解神经网络如何学习模拟写作,这些模型都是在合成的儿童故事上训练的。训练大规模语言模型需要大量时间和资源,而训练小模型可以更好地理解它们的内部工作方式。
研究人员让大型语言模型GPT生成合成儿童故事,然后用这些故事训练小模型。结果显示,哪怕只有几十万个参数的小模型也能生成连贯、符合语法的故事。 不同模型之间的比较显示,层数较少但每个层神经元更多的网络更擅长需要事实知识的问题。

Ronen Eldan意识到,他可以利用大型语言模型生成的儿童故事来快速训练较小的故事。
数学家Ronen Eldan于2022年加入微软研究院,研究生成语言模型,希望开发一种更便宜、更快的方法来探索他们的能力。做到这一点的自然方法是使用一个小数据集,这反过来意味着他必须训练模型专门完成特定任务,这样他们就不会太分散。最初,他想训练模型来解决某一类数学问题,但一天下午,在与他5岁的女儿共度时光后,他意识到孩子们的故事非常适合。
研究揭示了语言模型规模大小对其能力的影响,为训练和理解大型语言模型提供了新思路。合成文本可能是编制高质量训练数据的新方式,不需要极大规模的数据集。虽然小模型的特性不一定适用于大模型,但这项研究提醒我们对任何模型的理解都还十分有限。
更多论文:
TinyStories: How Small Can Language Models Be and Still Speak Coherent English?
https://arxiv.org/abs/2305.07759
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢