- 简介基础模型(FMs)提供社会利益,但也放大了风险。政府、公司和研究人员已经提出了监管框架、可接受的使用政策和安全基准作为回应。然而,现有的公共基准往往基于先前的文献、直觉或常识来定义安全类别,导致在最近的法规和政策中指定的风险出现了分离的类别集,这使得在这些基准之间评估和比较FMs变得具有挑战性。为了弥合这一差距,我们推出了AIR-Bench 2024,这是第一个与新兴政府法规和公司政策一致的AI安全基准,遵循我们的AI风险研究AIR 2024中基于法规的安全类别。AIR 2024将8个政府法规和16个公司政策分解为一个四层的安全分类法,其中最低层有314个细粒度的风险类别。AIR-Bench 2024包含5,694个不同的提示,涵盖了这些类别,经过手动策划和人工审核以确保质量。我们在AIR-Bench 2024上评估了领先的语言模型,揭示了它们与指定的安全问题的对齐情况。通过弥合公共基准和实际AI风险之间的差距,AIR-Bench 2024为跨司法管辖区评估模型的安全性奠定了基础,促进了更安全、更负责任的AI系统的发展。
- 图表
- 解决问题提出AIR-Bench 2024作为第一个与新兴政府法规和公司政策相一致的AI安全基准,以评估和比较语言模型的安全性。
- 关键思路将AIR 2024的四级安全分类法用于AIR-Bench 2024,包含314个细分风险类别和5,694个多样化的提示,通过人工筛选和审核确保质量。
- 其它亮点论文揭示了领先的语言模型与指定安全问题的一致性,为跨管辖区评估模型安全性奠定了基础,促进了更安全、更负责任的AI系统的发展。
- 最近的相关研究包括AI安全基准的开发和AI安全的法律和道德问题的研究。
沙发等你来抢
去评论
评论
沙发等你来抢