Causal Estimation of Memorisation Profiles

简介

理解语言模型中的记忆化对实践和社会有重要影响，例如研究模型的训练动态或防止版权侵犯。先前的研究将记忆化定义为训练模型对实例进行预测的因果效应。这个定义依赖于一个反事实：能够观察到模型没有看到该实例时会发生什么。现有方法难以提供计算效率高、准确性高的反事实估计。此外，它们通常为模型架构而非特定模型实例估计记忆化。本文填补了文献中的重要空白，提出了一种新的、基于计量经济学中差异设计的、原则性的和高效的估计记忆化的方法。使用这种方法，我们仅通过观察模型在训练过程中对一小组实例的行为，就能够表征模型的记忆化特征——其在训练过程中的记忆化趋势。在使用 Pythia 模型套件进行实验时，我们发现：记忆化（i）在较大的模型中更强更持久，（ii）由数据顺序和学习率决定，（iii）在模型大小方面具有稳定的趋势，因此可以从较小的模型中预测较大模型的记忆化。
图表
解决问题

论文旨在提出一种新的方法来估计语言模型中的记忆化现象，即模型在训练中是否会记住某些特定的实例，以及如何预测这种记忆化现象。
关键思路

论文提出了一种基于计量经济学中的差异差分设计的方法来估计语言模型中的记忆化现象，通过观察模型在训练过程中对一小部分实例的行为，来刻画模型的记忆化特征。
其它亮点

论文发现，记忆化现象在大型模型中更为强烈和持久，受数据顺序和学习率的影响，但在不同模型大小之间具有稳定的趋势。实验使用了Pythia模型套件，并提供了开源代码。
相关研究

最近的相关研究包括先前的记忆化定义和估计方法，以及语言模型中其他方面的研究，例如模型压缩和加速。

Causal Estimation of Memorisation Profiles

评论