- 简介最近大型语言模型的进步已经导致它们在全球范围内得到广泛应用,确保它们的安全需要进行全面和多语种的毒性评估。然而,现有的毒性基准主要集中在英语上,这给在其他语言中部署大型语言模型带来了严重的风险。我们通过引入PolygloToxicityPrompts(PTP)来解决这个问题,它是第一个包含17种语言、425K个自然出现的提示的大规模多语种毒性评估基准。我们通过自动抓取超过1亿个网络文本文档来克服网络文本中自然出现毒性的稀缺性并确保跨语言的覆盖率。使用PTP,我们研究了一些研究问题,以研究模型大小、提示语言以及指令和偏好调整方法对毒性的影响,通过对60多个大型语言模型进行基准测试。值得注意的是,我们发现,随着语言资源的减少或模型大小的增加,毒性会增加。尽管指令和偏好调整可以减少毒性,但偏好调整方法的选择并没有任何显着影响。我们的研究结果揭示了大型语言模型保护方面的重要缺陷,并突出了未来研究的重点。
-
- 图表
- 解决问题本论文旨在解决现有毒性评估基准主要集中在英语上的问题,提出了PolygloToxicityPrompts(PTP)这一跨语言的毒性评估基准,并使用该基准研究了模型大小、提示语言、指导和偏好调整方法对毒性的影响。
- 关键思路本论文的关键思路是使用自动抓取的超过1亿个网页文档来克服网络文本中毒性数据的稀缺性,并确保覆盖不同语言的语言资源差异。研究表明,当语言资源减少或模型大小增加时,毒性会增加。指导和偏好调整可以降低毒性,但偏好调整方法的选择并没有显著影响。
- 其它亮点本论文提出了跨语言的毒性评估基准PTP,涵盖17种语言,共425K个自然发生的提示。研究表明,模型大小和提示语言对毒性有重要影响,指导和偏好调整可以降低毒性。本论文使用了超过1亿个网页文档来自动抓取数据,并对60多个LLM模型进行了基准测试。
- 最近的相关研究包括:1)《Toxicity Detection in Online Discussions: An Overview of the Problem and Existing Solutions》;2)《Detecting Toxicity in Online Conversations Using Machine Learning: A Systematic Literature Review》;3)《A Survey on Automatic Detection of Cyberbullying》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流