Distilled Pretraining: A modern lens of Data, In-Context Learning and Test-Time Scaling

简介

在过去一年中，蒸馏方法在大规模语言模型（LLM）预训练中重新受到重视，Llama-3.2 和 Gemma 系列模型便是例证。虽然从历史来看，蒸馏已被证明可以提升统计建模效果，但其对现代大规模语言模型关键新范式的影响仍研究不足，例如测试时扩展能力和上下文学习能力。在本研究中，我们主要有三点贡献。首先，我们发现通过蒸馏进行预训练可以显著提升模型的测试时扩展表现。其次，我们观察到这种优势伴随着一定代价：蒸馏会削弱模型的上下文学习能力，尤其是通过归纳头（induction heads）实现的那类能力。为了解释这些现象，我们在一个二元模型（bigram model）的沙盒环境中对蒸馏预训练进行了研究，从而帮助我们识别出这些现象背后的共同主导因素。最后，基于这些洞察，我们阐明了多种预训练设计选择，希望为今后的实践者提供指导。
图表
解决问题

这篇论文试图探讨蒸馏（distillation）在大型语言模型（LLM）预训练中的作用，特别是在现代LLM关键范式（如测试时扩展性和上下文学习）中的影响。尽管蒸馏在统计建模方面已被证明有效，但其在这些新范式中的效果尚未被深入研究。这是一个新兴问题，尤其是在Llama-3.2和Gemma等模型重新强调蒸馏的背景下。
关键思路

论文的核心思路是通过实证研究分析蒸馏预训练对模型测试时扩展性（test-time scaling）和上下文学习（in-context learning）的影响，并通过一个简化的二元模型（bigram model）沙盒环境来揭示其背后的机制。相比已有研究，本文首次系统性地揭示了蒸馏在提升测试时性能的同时，会损害模型的上下文学习能力。
其它亮点

1. 发现蒸馏预训练显著提升了模型的测试时扩展能力。 2. 指出蒸馏对上下文学习能力（尤其是依赖归纳头的机制）有负面影响。 3. 通过简化的bigram模型进行理论分析，帮助理解上述现象背后的机制。 4. 为后续蒸馏预训练的设计提供了实用建议。 5. 实验设计严谨，结合了真实模型与理论模型进行分析。
相关研究

1. Distilling the Knowledge in a Neural Network (Hinton et al., 2015) 2. Large Language Models with In-Context Learning: A Survey (2023) 3. Scaling Laws for Neural Language Models (Kaplan et al., 2020) 4. The Curious Case of Neural Text Degeneration (Holtzman et al., 2020) 5. Gemma Technical Report (DeepMind, 2024) 6. Llama-3.2: Improvements in Distillation and Efficiency (Meta, 2024)

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论