ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming

2024年04月06日
  • 简介
    在构建大型语言模型(LLMs)时,必须牢记安全并保护它们的安全性。事实上,LLMs不应生成促进或规范有害、非法或不道德行为的内容,这可能会对个人或社会造成伤害。这个原则适用于正常和对抗性使用。为此,我们引入了ALERT,这是一个基于新颖细粒度风险分类法的大规模基准测试,旨在评估LLMs的安全性。它旨在通过红队方法评估LLMs的安全性,并包含超过45k个使用我们新颖分类法分类的指令。通过将LLMs置于对抗测试场景中,ALERT旨在识别漏洞、提供改进意见并增强语言模型的整体安全性。此外,细粒度分类法使研究人员能够进行深入评估,还有助于评估与各种政策的一致性。在我们的实验中,我们广泛评估了10个流行的开源和闭源LLMs,并证明其中许多仍然难以达到合理的安全水平。
  • 图表
  • 解决问题
    评估大型语言模型的安全性问题
  • 关键思路
    通过ALERT基准测试来评估大型语言模型的安全性,包括45k条指令的细粒度风险分类,采用红队测试方法来检测漏洞和提高模型的安全性
  • 其它亮点
    ALERT基准测试包含45k条指令的细粒度风险分类,采用红队测试方法来检测漏洞和提高模型的安全性;实验评估了10个流行的开源和闭源大型语言模型,发现很多模型仍然存在安全性问题
  • 相关研究
    近期的相关研究包括《GPT-3:语言模型的新里程碑》、《大型语言模型的可解释性和可控性问题》等
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论