- 简介我们刻画了记忆化在Transformer模型中的表征方式,并表明通过基于损失景观曲率的分解方法,可以在语言模型(LMs)和视觉Transformer(ViTs)的权重中将记忆化成分分离出来。这一发现基于先前的理论与实证研究,这些研究表明,被记忆的训练样本所对应的曲率明显比未被记忆的样本更尖锐,因此按权重分量从高到低排列曲率,即可在无需显式标签的情况下揭示出这种差异。这一观察启发了一种权重编辑方法,该方法在抑制非目标记忆内容复述方面,效果显著优于近期提出的一种遗忘学习方法(BalancedSubnet),同时还能保持更低的困惑度。由于曲率基底对模型权重中的共享结构具有自然的解释意义,我们系统分析了该编辑方法对语言模型下游任务的影响,发现事实检索和算术任务的表现受到特别且持续的负面影响,而开放式事实检索和一般性逻辑推理能力则得以保留。我们认为,这些任务高度依赖于权重空间中特定的专业化方向,而非通用机制,无论单个数据点是否被明确记忆。我们通过展示任务数据在被编辑掉的低曲率分量上的激活强度与其任务性能下降之间的对应关系,为上述观点提供了支持。本研究深化了人们对神经网络中记忆化现象的理解,为实际去除记忆化提供了可行路径,同时也为数学计算和事实检索等任务中存在特异性强、用途狭窄的内部结构提供了证据。
-
- 图表
- 解决问题论文试图解决神经网络中记忆化(memorization)现象如何在模型权重中被表示的问题,并探索如何有效分离和抑制对特定训练数据的记忆,尤其是在语言模型和视觉Transformer中。该问题具有现实意义,特别是在模型去学习(unlearning)、隐私保护和减少过拟合方面,虽然记忆化本身不是新问题,但从损失曲率角度进行权重分解并实现编辑的方法是较新的视角。
- 关键思路提出基于损失函数曲率的权重分解方法,发现被记忆的训练样本对应高曲率方向,而泛化结构对应低曲率方向。通过识别并编辑低曲率权重分量,可以有效抑制模型对未目标记忆数据的复述,同时保持整体性能(如困惑度)。这一思路将记忆化与权重空间几何结构联系起来,提供了无需标签即可识别记忆成分的新机制,相比现有去学习方法更具针对性和效率。
- 其它亮点实验在语言模型(LMs)和视觉Transformer(ViTs)上均验证了曲率分解的有效性;使用真实模型(如GPT系列)进行编辑,展示了对事实检索和算术任务的显著影响,但保留开放域推理能力;通过激活强度与低曲率成分的相关性分析,进一步支持了任务依赖特定权重方向的假设;工作为理解模型内部结构提供了可解释性工具,且代码可能开源(文中未明确,但类似研究常伴随开源)。值得深入的方向包括:将该方法扩展到更多任务、结合微调或稀疏训练以实现可控遗忘、探索低曲率方向是否对应‘功能模块’。
- 1. Spectral Norm Regularization for Deep Learning: Improving Generalization by Controlling Gradient Sensitivity 2. Towards Understanding Learning Representations: To What Degree do Different Neurons Contribute? 3. Identifying and Mitigating Memorization in Neural Networks via Influence Functions 4. Machine Unlearning: A Survey 5. The Loss Landscape of Overparameterized Neural Networks: Geometry and Topology of Weight Space
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流