CHiSafetyBench: A Chinese Hierarchical Safety Benchmark for Large Language Models

2024年06月14日
  • 简介
    随着大型语言模型(LLMs)的深度发展,它们的安全问题越来越受到关注。然而,缺乏中文安全基准和现有的安全分类不够全面,缺乏在真实的中文场景下综合安全检测能力。在这项工作中,我们介绍了CHiSafetyBench,这是一个专门用于评估LLMs在中文环境下识别风险内容和拒绝回答风险问题的安全基准。CHiSafetyBench包含一个数据集,涵盖了一个由5个风险领域和31个类别组成的层次化中文安全分类。该数据集包括两种类型的任务:多项选择题和问答题,分别从风险内容识别和拒绝回答风险问题的能力角度评估LLMs。利用这个基准,我们验证了自动评估作为人工评估替代方案的可行性,并对主流的中文LLMs进行了全面的自动安全评估。我们的实验揭示了不同模型在各种安全领域中的表现差异,表明所有模型在中文安全能力方面都具有相当的提升潜力。我们的数据集可在https://github.com/UnicomAI/DataSet/tree/main/TestData/Safety上公开获取。
  • 图表
  • 解决问题
    中文大型语言模型的安全问题缺乏相应的安全基准测试和综合的安全检测能力,本文试图提出一种中文安全基准测试CHiSafetyBench,以评估中文大型语言模型在识别风险内容和拒绝回答风险问题方面的能力。
  • 关键思路
    本文提出了一种中文安全基准测试CHiSafetyBench,包括5个风险领域和31个类别的层次结构安全分类系统,涵盖了多项选择题和问答题两种任务,用于评估中文大型语言模型在识别风险内容和拒绝回答风险问题方面的能力。利用该基准测试,作者验证了自动评估作为人工评估替代方案的可行性,并对主流中文大型语言模型进行了全面的自动安全评估,发现不同模型在不同安全领域的表现不同,说明所有模型在中文安全能力方面都有相当大的提升潜力。
  • 其它亮点
    本文提出了一种中文安全基准测试CHiSafetyBench,为中文大型语言模型的安全问题提供了一种全面的评估方法;作者验证了自动评估作为人工评估替代方案的可行性;作者对主流中文大型语言模型进行了全面的自动安全评估,发现不同模型在不同安全领域的表现不同,说明所有模型在中文安全能力方面都有相当大的提升潜力。
  • 相关研究
    最近的相关研究包括:1.《ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information》;2.《ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators》;3.《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论