Preference Tuning For Toxicity Mitigation Generalizes Across Languages

2024年06月23日
  • 简介
    由于大型语言模型(LLMs)的全球使用越来越广泛,因此解毒多语言LLMs变得至关重要。在这项工作中,我们探讨了零样本跨语言泛化在解毒LLMs中的偏好调整。与先前的研究显示其他安全任务的跨语言泛化有限不同,我们证明仅使用英语数据进行直接偏好优化(DPO)训练可以显著降低多语言开放生成中的毒性。例如,在训练后,mGPT-1.3B生成有害续集的概率在17种不同语言中从46.8%降至3.9%。我们的结果还适用于其他多语言LLMs,例如BLOOM、Llama3和Aya-23。使用因果干预和激活分析等机制可解释性工具,我们确定了LLMs中MLP层的双重多语言属性,这解释了DPO的跨语言泛化。最后,我们展示了双语句子检索可以预测DPO偏好调整的跨语言可转移性。
  • 图表
  • 解决问题
    如何通过英文数据来降低多语言大语言模型的毒性生成?
  • 关键思路
    使用直接偏好优化(DPO)训练可以显著降低多语言大语言模型的毒性生成,这得益于多语言感知(MLP)层的双重多语言性质。
  • 其它亮点
    使用DPO训练可以将mGPT-1.3B生成有毒续集的概率从46.8%降至3.9%;使用因果干预和激活分析等工具,揭示了MLP层的双重多语言性质;使用双语句子检索可以预测DPO偏好调整的跨语言可转移性。
  • 相关研究
    最近相关的研究包括《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》、《Language Models Are Few-Shot Learners》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论