- 简介机器遗忘是人工智能领域内的一个新兴领域,旨在解决选择性遗忘或减少机器学习模型中不良知识或行为的挑战,特别是在大型语言模型(LLM)的背景下。本文介绍了一种方法,通过利用梯度上升算法进行知识遗忘,使大型预训练转换语言模型(如Open Pre-trained Transformer Language Models)与伦理、隐私和安全标准相一致。我们的方法旨在有选择性地删除或修改LLMs中学习到的信息,以针对有害回应和受版权保护的内容。本文提出了一种双重方法,通过解决有害回应和受版权保护的内容问题,增强大型语言模型(LLMs)的伦理和安全行为。为了减少有害回应,我们在PKU数据集上应用了梯度上升,实现了对Open Pre-trained Transformer Language Models(OPT1.3b和OPT2.7b)\citet{zhang2022opt}的有害回应的75\%减少,同时使用TruthfulQA数据集\citet{DBLP:journals/corr/abs-2109-07958}保留了以前的知识。为了处理受版权保护的内容,我们基于指环王语料库构建了一个自定义数据集,并通过LoRA:大型语言模型的低秩适应\citet{DBLP:journals/corr/abs-2106-09685}微调来对齐LLMs(OPT1.3b和OPT2.7b)\citet{zhang2022opt}。随后,我们使用梯度上升来遗忘指环王的内容,结果版权材料的存在显著减少。为了保持多样化的知识库,我们利用了Book Corpus数据集。此外,我们提出了一种新的评估技术,用于评估有害遗忘的有效性。
- 图表
- 解决问题本文介绍了一种机器学习模型中的知识遗忘方法,旨在解决大型语言模型(LLMs)中的不良响应和版权问题。
- 关键思路通过梯度上升算法进行知识遗忘,以选择性地删除或修改LLMs中的学习信息,从而使其符合伦理、隐私和安全标准。
- 其它亮点本文提出了一种双重方法来增强LLMs的伦理和安全行为,通过处理有害响应和版权内容。实验结果表明,梯度上升算法可以降低LLMs中有害响应和版权内容的存在。
- 最近的相关研究包括LoRA和TruthfulQA等方法。
沙发等你来抢
去评论
评论
沙发等你来抢