Whispering Experts: Neural Interventions for Toxicity Mitigation in Language Models

简介

大型语言模型（LLMs）的一个重要问题是它们生成有害语言的能力。在本文中，我们展示了可以通过它们区分有害句子的能力来确定负责有害性的神经元，并且可以通过按照这种能力的大小比例减少它们的激活水平来减轻有害语言。我们提出了AUROC适应（AurA），这是一种可应用于任何预训练LLM以减轻有害性的干预方法。由于该干预与每个神经元区分有害内容的能力成比例，因此它没有任何模型依赖的超参数。我们展示了AurA可以实现高达$2.2\times$的减少有害性，仅增加了$0.72$的困惑度。我们还展示了AurA在不同规模的模型（从1.5B到40B个参数）中都是有效的，并且其减轻有害语言的效果，在保留常识零-shot能力的同时，适用于所有规模。AurA可以与预提示策略相结合，将其平均减轻潜力从$1.28\times$提高到$2.35\times$。此外，AurA可以抵消恶意引诱有害内容的对抗性预提示，使其成为部署更安全、更少有害的模型的有效方法。
图表
解决问题

解决大型语言模型生成有害语言的问题
关键思路

通过降低神经元的激活水平来减轻毒性语言的生成，提出了AUROC调整方法，该方法可以适用于任何预训练的LLM，并且不需要任何模型相关的超参数。
其它亮点

实验表明，AUROC可以在仅增加0.72的困惑度的情况下，将毒性降低2.2倍，而且不影响模型的零样本能力；AUROC还可以与预提示策略相结合，提高平均减毒效果；AUROC还可以对抗恶意预提示，使模型更加安全。
相关研究

最近的相关研究包括《Controllable Unsupervised Text Attribute Transfer via Editing Entangled Latent Representation》、《Towards Controlled Generation of Text》等。

Whispering Experts: Neural Interventions for Toxicity Mitigation in Language Models

评论