Revealing Language Model Trajectories via Kullback-Leibler Divergence

简介

一种最近提出的方法通过基于对数似然向量分配坐标，能够高效估计不同架构语言模型之间的 KL 散度。为了更好地理解这一指标的行为，我们使用公开可用的语言模型，在广泛的条件下系统地评估了 KL 散度。我们的分析涵盖了预训练检查点之间、微调模型与基础模型之间，以及通过 logits 镜头的层间比较。我们发现，根据 KL 散度测量的语言模型轨迹在预训练过程中表现出螺旋结构，并在层间呈现出线状进展。此外，我们还表明，在扩散指数方面，模型在对数似然空间中的轨迹比在权重空间中的轨迹受到更多限制。
图表
解决问题

该论文试图通过KL散度来量化和理解不同语言模型之间的差异，包括预训练、微调模型以及模型层间的动态变化。这是一个重要的问题，因为它有助于深入理解模型在训练和微调过程中的行为。
关键思路

论文提出了一种基于对数似然向量的高效方法来估计不同架构语言模型之间的KL散度。这种方法不仅适用于比较不同阶段的模型（如预训练与微调），还能分析模型内部各层的行为。相比传统方法，它提供了一种更直观且高效的工具来研究模型轨迹。
其它亮点

1. 发现了语言模型在预训练过程中呈现出螺旋结构，在层间表现为线性进展；2. 验证了模型在对数似然空间中的扩散指数比权重空间更加受限；3. 系统性地评估了多种条件下的KL散度，包括预训练检查点、微调模型和层间对比；4. 使用了公开可用的语言模型进行实验，数据具有广泛代表性；5. 目前尚无开源代码，但未来可能进一步探索对数似然空间的潜在应用价值。
相关研究

相关研究包括：1. 'Understanding Neural Language Models via Layerwise Divergence Analysis'，探讨了模型层间差异的分析方法；2. 'Measuring the Geometry of Model Trajectories in Deep Learning'，研究了深度学习模型轨迹的几何特性；3. 'On the Expressivity of Transformer Architectures'，分析了Transformer架构的表达能力及其训练动态；4. 'Weight Space and Function Space in Neural Networks'，讨论了权重空间与函数空间的关系及其对模型行为的影响。

PDF

原文

点赞收藏评论分享到Link

沙发等你来抢

去评论