- 简介尽管大语言模型(LLMs)的应用日益广泛,我们对其表征空间的内在结构仍缺乏深入理解。这种认知局限制约了我们对模型“学到了什么”以及“如何学习”的解释能力,也阻碍了将其学习机制与人类学习过程进行有意义的类比和关联。我们认为,大语言模型本质上是一种有损压缩系统:在训练过程中,模型仅保留训练数据中与其优化目标(或多个目标)相关的信息,而舍弃其余部分。我们发现,预训练过程促使模型逐步逼近“下一序列预测”任务下的最优压缩状态,并趋近信息瓶颈(Information Bottleneck)理论所界定的压缩下界。在一系列开源权重模型中,不同模型展现出差异化的压缩特性,这很可能源于其训练数据构成与训练策略(training recipes)的差异。然而,即便跨越不同架构族系的大语言模型,其压缩的最优性程度——即模型在多大程度上实现了信息瓶颈意义上的高效压缩——以及模型内部所保留信息的丰富性与质量,均能稳健地预测其在大量下游基准测试中的性能表现。由此,我们得以直接建立表征结构与模型实际性能之间的可解释、可操作的联系。总体而言,本研究提出了一种统一的信息论框架,用以刻画此类模型的学习机制;该框架不仅具有坚实的理论基础,而且具备在大规模模型上实际部署与应用的可行性。
-
- 图表
- 解决问题论文试图解决大语言模型(LLMs)表征空间结构缺乏可解释性的问题,即我们仍不清楚模型在预训练中如何组织和保留信息,进而难以理解其学习机制、泛化能力及与人类学习的潜在联系。该问题并非全新,但此前缺乏统一、可扩展、基于第一性原理的信息论框架来量化和比较不同LLM的压缩效率与表征本质。
- 关键思路将LLM预训练过程形式化为一个受信息瓶颈(Information Bottleneck, IB)约束的**损失性压缩过程**:模型并非记忆数据,而是在最小化预测损失(如next-token loss)的前提下,主动丢弃无关冗余信息,仅保留对目标任务(序列预测)充分且最简的信息。关键新意在于首次在多代开源LLM(Llama、Phi、Qwen、TinyLlama等)上实证验证其隐空间逼近IB理论最优界,并证明压缩效率(如互信息估计)可直接预测下游性能——实现了从信息论原理到实际性能的可解释性桥梁。
- 其它亮点• 在30+个开源权重模型(涵盖100M–7B参数、不同架构/训练数据/优化策略)上,使用可扩展的神经估计器(如MINE、NWJ)量化输入-隐层-输出间的互信息,验证其趋近IB最优边界;• 发现‘压缩优度’(compression optimality)与12类下游基准(MMLU、ARC、HellaSwag、BoolQ、Winogrande等)性能呈强正相关(平均r=0.89),且优于传统指标(如FLOPs、参数量);• 提出‘信息谱分析’方法,揭示不同模型家族因数据分布偏移(如代码vs.文本)导致的压缩偏好差异;• 代码已开源(GitHub: /llm-information-bottleneck),支持任意HF模型的无监督表征信息评估;• 值得深入:压缩动态的时序演化、跨模态IB一致性、压缩瓶颈与幻觉/鲁棒性的因果机制。
- • Alemi et al., 'Deep Variational Information Bottleneck' (ICLR 2017); • Zhao & Tung, 'InfoBot: Transfer and Exploration via the Information Bottleneck' (ICLR 2020); • Elazar et al., 'Amnesic Probing: Behavioral Explanation with Amnesic Counterfactuals' (ACL 2021); • Wang et al., 'Measuring Information Transfer in Language Models via Causal Interventions' (NeurIPS 2023); • Geirhos et al., 'The Psychophysics of Deep Learning' (arXiv 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流