- 简介大型语言模型(LLMs)在预训练期间经常会记忆敏感、私密或受版权保护的数据。LLM去学习的目的是消除预训练模型中不良数据的影响,同时保留模型在其他任务上的效用。最近提出了几种实用的LLM去学习方法,大多基于对不良数据损失的梯度上升(GA)。然而,在某些去学习任务中,这些方法要么无法有效地去学习目标数据,要么遭受灾难性崩溃——即模型效用的急剧下降。 本文提出了一种简单的基于对齐的方法——负向偏好优化(NPO),它可以高效、有效地去学习目标数据集。我们理论上证明,通过最小化NPO损失来减缓灾难性崩溃的进展速度指数级别低于GA。通过对合成数据和基准TOFU数据集的实验,我们证明了基于NPO的方法在去学习不良数据和保持模型效用之间实现了更好的平衡。我们还观察到,相比于GA方法,基于NPO的方法生成的输出更加合理,GA方法的输出通常是无意义的。值得注意的是,在TOFU数据集上,基于NPO的方法是第一个在遗忘50%(或更多)训练数据方面取得合理去学习结果的方法,而现有方法已经难以遗忘10%的训练数据。
- 图表
- 解决问题本论文旨在解决Large Language Models (LLMs)在预训练过程中可能会记忆敏感、私人或受版权保护的数据,而LLM unlearning旨在消除这些不良数据对预训练模型的影响,同时保留模型在其他任务上的效用。现有的基于梯度上升(GA)的方法在某些unlearning任务上要么无法有效地unlearn目标数据,要么遭受灾难性崩溃。本文提出了Negative Preference Optimization (NPO)方法,旨在高效有效地unlearn目标数据集。
- 关键思路本文提出了一种基于对齐的简单方法,可以高效而有效地unlearn目标数据集。与GA相比,理论上证明了通过最小化NPO损失来防止灾难性崩溃的进展指数级别地较慢。在合成数据和基准TOFU数据集上的实验表明,基于NPO的方法在unlearn不良数据和保持模型效用之间取得了更好的平衡。NPO-based方法生成的输出比GA-based方法更为合理,GA-based方法的输出往往是无意义的。值得注意的是,在TOFU上,NPO-based方法是首次在遗忘50%(或更多)的训练数据方面取得了合理的unlearning结果,而现有方法在遗忘10%的训练数据时已经面临困难。
- 其它亮点本文提出了一种新的基于对齐的方法,称为Negative Preference Optimization (NPO),可以高效地unlearn目标数据集,同时保留模型在其他任务上的效用。在合成数据和基准TOFU数据集上的实验表明,NPO-based方法在unlearn不良数据和保持模型效用之间取得了更好的平衡。NPO-based方法生成的输出比GA-based方法更为合理,GA-based方法的输出往往是无意义的。此外,NPO-based方法是首次在遗忘50%(或更多)的训练数据方面取得了合理的unlearning结果,而现有方法在遗忘10%的训练数据时已经面临困难。
- 在相关研究方面,最近在这个领域中还有一些相关的研究,例如《Towards Unsupervised Learning of Generative Models for 3D Controllable Image Synthesis》、《Unsupervised Learning of Object Landmarks by Factorized Spatial Embeddings》等。
沙发等你来抢
去评论
评论
沙发等你来抢