Walking in Others' Shoes: How Perspective-Taking Guides Large Language Models in Reducing Toxicity and Bias

2024年07月22日
  • 简介
    现有的大型语言模型(LLMs)生成的内容中存在常见的毒性和社会偏见,因此需要采取策略来减少伤害。目前的解决方案通常需要对模型进行白盒访问或进行大量训练,这对于尖端商业LLMs来说是不切实际的。此外,现有的提示方法依赖于外部工具反馈,并且无法同时减少毒性和偏见。受社会心理学原理的启发,我们提出了一种新的策略,称为“视角引导提示(\textsc{PeT})”,它鼓励LLMs整合多元化的人类视角,并自我调节其回应。这种自我纠正机制可以显著减少LLMs回应中的毒性(高达89%)和偏见(高达73%)。对两个商业LLMs(ChatGPT和GLM)和三个开源LLMs进行了严格的评估和消融研究,揭示了\textsc{PeT}在产生更少有害回应方面的优越性,优于五个强大的基线。
  • 作者讲解
  • 图表
  • 解决问题
    减少大型语言模型(LLMs)生成的内容中的有害内容和社会偏见。
  • 关键思路
    提出了一种名为“Perspective-taking Prompting (PeT)”的策略,通过激励LLMs融合多样的人类视角和自我调节响应来减少有害内容和社会偏见。
  • 其它亮点
    通过在两个商业LLMs(ChatGPT和GLM)和三个开源LLMs上进行评估和消融研究,证明了PeT在生成更少有害响应方面的优越性,优于五个强基线。
  • 相关研究
    最近的相关研究包括:《Reducing Gender Bias in Abusive Language Detection》、《Mitigating Toxic Language using the Decoupled Mixture of Expert》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问