- 简介大型语言模型(LLMs)在生成过程中,特别是在使用有害提示进行推断时,可能会引发社会偏见。控制生成中的敏感属性面临着数据分布、泛化能力和效率等方面的挑战。具体而言,微调和检索需要大量无偏的语料库,而直接提示则需要经过多轮思考的精心编写指令来纠正输出,但会带来记忆和推理延迟等挑战。本文提出了一种名为“Expert-Guided Extinction of Toxic Tokens for Debiased Generation (EXPOSED)”的方法,以消除LLMs的不良输出,而无需上述要求。EXPOSED基于丰富的有害语料库构建了一个去偏差专家,以揭示和引出可能危险的标记。然后,它处理LLMs的输出,并通过抑制和减弱有害标记来构建一个公平的分布。EXPOSED在三个LLM家族上进行了公平性基准测试。广泛的实验表明,与其他基线相比,所提出的EXPOSED显著减少了潜在的社会偏见,同时平衡了公平性和生成性能。
- 图表
- 解决问题本论文旨在解决大型语言模型在生成过程中可能存在的社会偏见问题,提出了一种无需大量无偏数据和精心设计指令即可消除有害输出的解决方案。
- 关键思路论文提出了一种名为EXPOSED的解决方案,利用有害语料库构建消除偏见的专家,对LLMs生成的输出进行处理,抑制和减弱有害输出,从而达到消除社会偏见的目的。
- 其它亮点论文在三个LLM系列上进行了公平性基准测试,并展示了EXPOSED相对于其他基线方法显著减少潜在社会偏见的能力,同时平衡了公平性和生成性能。
- 在最近的相关研究中,也有一些关于消除大型语言模型中社会偏见的工作。例如,FairSeq、TextFooler和GPT-2等工作。
沙发等你来抢
去评论
评论
沙发等你来抢