Walking in Others' Shoes: How Perspective-Taking Guides Large Language Models in Reducing Toxicity and Bias

简介

现有的大型语言模型（LLMs）生成的内容中存在常见的毒性和社会偏见，因此需要采取策略来减少伤害。目前的解决方案通常需要对模型进行白盒访问或进行大量训练，这对于尖端商业LLMs来说是不切实际的。此外，现有的提示方法依赖于外部工具反馈，并且无法同时减少毒性和偏见。受社会心理学原理的启发，我们提出了一种新的策略，称为“视角引导提示（\textsc{PeT}）”，它鼓励LLMs整合多元化的人类视角，并自我调节其回应。这种自我纠正机制可以显著减少LLMs回应中的毒性（高达89%）和偏见（高达73%）。对两个商业LLMs（ChatGPT和GLM）和三个开源LLMs进行了严格的评估和消融研究，揭示了\textsc{PeT}在产生更少有害回应方面的优越性，优于五个强大的基线。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

减少大型语言模型（LLMs）生成的内容中的有害内容和社会偏见。
关键思路

提出了一种名为“Perspective-taking Prompting (PeT)”的策略，通过激励LLMs融合多样的人类视角和自我调节响应来减少有害内容和社会偏见。
其它亮点

通过在两个商业LLMs（ChatGPT和GLM）和三个开源LLMs上进行评估和消融研究，证明了PeT在生成更少有害响应方面的优越性，优于五个强基线。
相关研究

最近的相关研究包括：《Reducing Gender Bias in Abusive Language Detection》、《Mitigating Toxic Language using the Decoupled Mixture of Expert》等。

Walking in Others' Shoes: How Perspective-Taking Guides Large Language Models in Reducing Toxicity and Bias

提问交流

提问交流