- 简介大型语言模型(LLMs)和小型语言模型(SLMs)正在以惊人的速度被采用,尽管它们的安全性仍然是一个严重的问题。随着多语言S/LLMs的出现,问题现在变成了一个规模的问题:我们能否以它们被部署的同样速度扩展这些模型的多语言安全评估?为此,我们介绍了RTP-LX,一个包含28种语言中有害提示和输出的人工翻译和人工注释语料库。RTP-LX遵循参与式设计实践,其中一部分语料库特别设计用于检测具有文化特定性的有害语言。我们评估了七个S/LLMs在文化敏感的多语言场景中检测有害内容的能力。我们发现,尽管它们在准确性方面通常得分可接受,但它们在全面评判提示的有害程度时与人类评判者的一致性较低,并且在依赖上下文的情境中难以辨别伤害,特别是在微妙但有害的内容(例如微侮辱、偏见)方面。我们发布了这个数据集,以进一步减少这些模型的有害用途并改善它们的安全部署。
- 图表
- 解决问题如何在多语言环境下评估大型和小型语言模型对有害内容的检测能力?
- 关键思路介绍了一个人工翻译和人工注释的有害提示和输出的多语言语料库RTP-LX,用于评估七个大型和小型语言模型的有害内容检测能力。
- 其它亮点RTP-LX语料库采用参与式设计方法,一部分语料专门用于检测文化特定的有害语言。实验结果显示,大型和小型语言模型在准确性方面表现良好,但在整体上评估有害提示的有害程度时与人类评判者的一致性较低,在特定情境下(如微侮辱、偏见)很难辨别有害内容。研究者开源了RTP-LX语料库,以促进语言模型的安全部署和应用。
- 最近的相关研究包括《GPT-3出现了什么问题?》、《AI模型中的社会偏见:问题、测量和解决方案》等。
沙发等你来抢
去评论
评论
沙发等你来抢