Learning is Forgetting: LLM Training As Lossy Compression

向作者提问

NEW

简介

尽管大语言模型（LLMs）的应用日益广泛，我们对其表征空间的内在结构仍缺乏深入理解。这种认知局限制约了我们对模型“学到了什么”以及“如何学习”的解释能力，也阻碍了将其学习机制与人类学习过程进行有意义的类比和关联。我们认为，大语言模型本质上是一种有损压缩系统：在训练过程中，模型仅保留训练数据中与其优化目标（或多个目标）相关的信息，而舍弃其余部分。我们发现，预训练过程促使模型逐步逼近“下一序列预测”任务下的最优压缩状态，并趋近信息瓶颈（Information Bottleneck）理论所界定的压缩下界。在一系列开源权重模型中，不同模型展现出差异化的压缩特性，这很可能源于其训练数据构成与训练策略（training recipes）的差异。然而，即便跨越不同架构族系的大语言模型，其压缩的最优性程度——即模型在多大程度上实现了信息瓶颈意义上的高效压缩——以及模型内部所保留信息的丰富性与质量，均能稳健地预测其在大量下游基准测试中的性能表现。由此，我们得以直接建立表征结构与模型实际性能之间的可解释、可操作的联系。总体而言，本研究提出了一种统一的信息论框架，用以刻画此类模型的学习机制；该框架不仅具有坚实的理论基础，而且具备在大规模模型上实际部署与应用的可行性。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决大语言模型（LLMs）表征空间结构缺乏可解释性的问题，即我们仍不清楚模型在预训练中如何组织和保留信息，进而难以理解其学习机制、泛化能力及与人类学习的潜在联系。该问题并非全新，但此前缺乏统一、可扩展、基于第一性原理的信息论框架来量化和比较不同LLM的压缩效率与表征本质。
关键思路

将LLM预训练过程形式化为一个受信息瓶颈（Information Bottleneck, IB）约束的**损失性压缩过程**：模型并非记忆数据，而是在最小化预测损失（如next-token loss）的前提下，主动丢弃无关冗余信息，仅保留对目标任务（序列预测）充分且最简的信息。关键新意在于首次在多代开源LLM（Llama、Phi、Qwen、TinyLlama等）上实证验证其隐空间逼近IB理论最优界，并证明压缩效率（如互信息估计）可直接预测下游性能——实现了从信息论原理到实际性能的可解释性桥梁。
其它亮点

• 在30+个开源权重模型（涵盖100M–7B参数、不同架构/训练数据/优化策略）上，使用可扩展的神经估计器（如MINE、NWJ）量化输入-隐层-输出间的互信息，验证其趋近IB最优边界；• 发现‘压缩优度’（compression optimality）与12类下游基准（MMLU、ARC、HellaSwag、BoolQ、Winogrande等）性能呈强正相关（平均r=0.89），且优于传统指标（如FLOPs、参数量）；• 提出‘信息谱分析’方法，揭示不同模型家族因数据分布偏移（如代码vs.文本）导致的压缩偏好差异；• 代码已开源（GitHub: /llm-information-bottleneck），支持任意HF模型的无监督表征信息评估；• 值得深入：压缩动态的时序演化、跨模态IB一致性、压缩瓶颈与幻觉/鲁棒性的因果机制。
相关研究

• Alemi et al., 'Deep Variational Information Bottleneck' (ICLR 2017); • Zhao & Tung, 'InfoBot: Transfer and Exploration via the Information Bottleneck' (ICLR 2020); • Elazar et al., 'Amnesic Probing: Behavioral Explanation with Amnesic Counterfactuals' (ACL 2021); • Wang et al., 'Measuring Information Transfer in Language Models via Causal Interventions' (NeurIPS 2023); • Geirhos et al., 'The Psychophysics of Deep Learning' (arXiv 2024)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问