PolygloToxicityPrompts: Multilingual Evaluation of Neural Toxic Degeneration in Large Language Models

2024年05月15日
  • 简介
    最近大型语言模型(LLMs)的进展已经导致它们在全球范围内得到广泛部署,确保它们的安全需要进行全面的、多语种的毒性评估。然而,现有的毒性基准主要集中在英语上,这给在其他语言中部署LLMs带来了严重的风险。我们通过引入PolygloToxicityPrompts(PTP)来解决这个问题,这是第一个包含17种语言、覆盖425K个自然出现的提示的大规模多语言毒性评估基准。我们通过自动爬取超过1亿个网络文本文档来克服网络文本中自然出现的毒性稀缺性,并确保跨语言覆盖不同资源。使用PTP,我们研究了研究问题,以研究模型大小、提示语言和指导和偏好调整方法对毒性的影响,通过对60多个LLMs进行基准测试。值得注意的是,我们发现,随着语言资源的减少或模型大小的增加,毒性会增加。虽然指导和偏好调整可以减少毒性,但偏好调整方法的选择并没有任何显着影响。我们的发现揭示了LLM保护的重要缺陷,并突出了未来研究的方向。
  • 图表
  • 解决问题
    多语言毒性评估基准缺乏,限制了大型语言模型在其他语言中的部署。本文旨在介绍PolygloToxicityPrompts(PTP),这是一个包含17种语言的大规模多语言毒性评估基准,共包含425K个自然出现的提示,通过自动爬取超过100M的网络文本文档来确保跨语言的覆盖。
  • 关键思路
    本文通过PolygloToxicityPrompts(PTP)提供了一个多语言毒性评估基准,研究了模型大小、提示语言以及指导和偏好调整方法对毒性的影响,并发现毒性随着语言资源的减少或模型大小的增加而增加。指导和偏好调整可以降低毒性,但偏好调整方法的选择并没有显著影响。
  • 其它亮点
    本文提供了一个多语言毒性评估基准,可以帮助解决大型语言模型在其他语言中的部署问题。实验使用了超过100M的网络文本文档,并研究了60多种LLM模型。指导和偏好调整可以降低毒性,但偏好调整方法的选择并没有显著影响。
  • 相关研究
    最近的相关研究包括:1)英语毒性评估基准,如Toxicity Dataset和Civil Comments;2)多语言情感分析数据集,如MultiDA;3)大型语言模型的安全性和隐私性问题,如GPT-2和BERT的隐私攻击。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论