Rethinking Machine Unlearning for Large Language Models

2024年02月13日
  • 简介
    我们探讨了在大型语言模型(LLMs)领域中的机器去学习(MU),称为LLM去学习。这个举措旨在消除不良数据的影响(例如敏感或非法信息)和相关模型能力,同时保持基本知识生成的完整性,不影响因果无关的信息。我们设想LLM去学习将成为LLM的生命周期管理中的关键要素,可能成为开发生成AI的基础,这种AI不仅安全、可靠,而且资源利用率高,不需要完全重新训练。我们从概念制定、方法论、度量和应用方面探索LLM去学习的领域。特别是,我们强调了现有LLM去学习研究中经常被忽视的方面,例如去学习范围、数据-模型交互和多方面的功效评估。我们还将LLM去学习与模型编辑、影响函数、模型解释、对抗性训练和强化学习等相关领域联系起来。此外,我们概述了LLM去学习的有效评估框架,并探讨了它在版权和隐私保护以及社会技术伤害减少方面的应用。
  • 图表
  • 解决问题
    本论文旨在探讨机器遗忘(MU)在大型语言模型(LLMs)领域中的应用,即LLM遗忘。该研究旨在消除不良数据影响(例如敏感或非法信息)及其相关模型能力,同时保持基本知识生成的完整性,不影响因果无关信息。
  • 关键思路
    论文提出了一种新的方法,即LLM遗忘,以解决LLMs中的不良数据影响问题。该方法可以有效地消除不良数据的影响,同时保持模型的基本知识生成能力,而无需进行完全重新训练。
  • 其它亮点
    论文提出了LLM遗忘的概念、方法、度量和应用,并强调了现有LLM遗忘研究中经常被忽视的方面,例如遗忘范围、数据-模型交互和多方面的有效性评估。此外,论文还提出了一种有效的评估框架,并探讨了其在版权和隐私保护以及社会技术伤害减少方面的应用。
  • 相关研究
    在相关研究方面,本文将LLM遗忘与模型编辑、影响函数、模型解释、对抗训练和强化学习等领域进行了联系。最近的相关研究包括《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》和《On the (In)fidelity and Sensitivity of Explanations》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论