A Grading Rubric for AI Safety Frameworks

简介

在过去的一年里，人工智能（AI）公司越来越多地采用AI安全框架。这些框架概述了公司打算如何将开发和部署前沿AI系统所涉及的潜在风险保持在可接受的水平。主要的参与者，如Anthropic、OpenAI和Google DeepMind已经发布了他们的框架，而另外13家公司已经表示他们打算在2025年2月之前发布类似的框架。鉴于他们在AI公司努力识别和解决系统中不可接受的风险方面的核心作用，AI安全框架值得受到重视。为了使政府、学术界和公民社会能够对这些框架进行评判，本文提出了一个评分标准。这个标准由七个评估标准和21个具体指标组成。每个标准可以按照从A（金标准）到F（不合格）的等级进行评分。本文还提出了三种应用这个评分标准的方法：调查、德尔菲研究和审计。评分标准的目的是使框架之间能够进行细致的比较，确定潜在的改进领域，并促进负责任的AI开发的竞赛。
图表
解决问题

评估人工智能安全框架的评分标准
关键思路

提出了一个由七个评估标准和21个具体指标组成的评分标准，用于评估人工智能安全框架的质量，并提出了三种应用此标准的方法。
其它亮点

提出的评分标准可用于比较不同公司的人工智能安全框架，有助于发现潜在的改进空间，并促进负责任的人工智能开发。
相关研究

该论文列举了一些已经发布了安全框架的公司，如Anthropic、OpenAI和Google DeepMind，并指出还有13家公司打算在2025年2月之前发布类似的框架。

A Grading Rubric for AI Safety Frameworks

评论