Introducing v0.5 of the AI Safety Benchmark from MLCommons

2024年04月18日
  • 简介
    本文介绍了由MLCommons AI Safety工作组创建的AI安全基准测试v0.5。AI安全基准测试旨在评估使用聊天调整的语言模型的AI系统的安全风险。我们引入了一种基于原则的方法来指定和构建基准测试,v0.5仅涵盖一个用例(成年人用英语与通用助手聊天)和有限的人物角色(即典型用户、恶意用户和易受攻击的用户)。我们创建了一个13种危险类别的新分类法,其中7种在v0.5基准测试中进行了测试。我们计划在2024年底发布AI安全基准测试v1.0,该版本将为AI系统的安全提供有意义的见解。但是,v0.5基准测试不应用于评估AI系统的安全性。我们已经全面记录了v0.5的限制、缺陷和挑战。这个v0.5的AI安全基准测试包括(1)一种基于原则的方法来指定和构建基准测试,包括用例、被测试的系统类型(SUTs)、语言和上下文、人物角色、测试和测试项;(2)一个包含定义和子类别的13种危险类别的分类法;(3)七种危险类别的测试,每种测试包含一个独特的测试项集合,即提示。总共有43,090个测试项,我们使用模板创建了这些测试项;(4)一个针对AI系统对基准测试的评分系统;(5)一个名为ModelBench的开放平台和可下载工具,可用于评估AI系统在基准测试上的安全性;(6)一个基准测试的示例评估报告,对十多个公开可用的聊天调整的语言模型的性能进行基准测试;(7)基准测试的测试规范。
  • 图表
  • 解决问题
    评估使用聊天调整的语言模型的人工智能系统的安全风险,为此需要创建 AI Safety Benchmark,该基准测试的第0.5版仅覆盖单个用例和有限的人物角色,如是否是典型用户、恶意用户或脆弱用户等。
  • 关键思路
    通过构建 AI Safety Benchmark 来评估人工智能系统的安全性,该基准测试包括用例、测试系统类型、语言和上下文、人物角色、测试和测试项。
  • 其它亮点
    论文介绍了一个新的、有原则的方法来构建 AI Safety Benchmark,包括一个新的危害类别分类法和对应的测试,以及一个针对该基准测试的 AI 系统评分系统。论文还提供了一个开放的平台和可下载的工具,用于评估 AI 系统在基准测试上的安全性。
  • 相关研究
    最近的相关研究包括 OpenAI 的 GPT-3 模型和 Facebook 的 BlenderBot 模型。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论