A Grading Rubric for AI Safety Frameworks

2024年09月13日
  • 简介
    在过去的一年里,人工智能(AI)公司越来越多地采用AI安全框架。这些框架概述了公司打算如何将开发和部署前沿AI系统所涉及的潜在风险保持在可接受的水平。主要的参与者,如Anthropic、OpenAI和Google DeepMind已经发布了他们的框架,而另外13家公司已经表示他们打算在2025年2月之前发布类似的框架。鉴于他们在AI公司努力识别和解决系统中不可接受的风险方面的核心作用,AI安全框架值得受到重视。为了使政府、学术界和公民社会能够对这些框架进行评判,本文提出了一个评分标准。这个标准由七个评估标准和21个具体指标组成。每个标准可以按照从A(金标准)到F(不合格)的等级进行评分。本文还提出了三种应用这个评分标准的方法:调查、德尔菲研究和审计。评分标准的目的是使框架之间能够进行细致的比较,确定潜在的改进领域,并促进负责任的AI开发的竞赛。
  • 图表
  • 解决问题
    评估人工智能安全框架的评分标准
  • 关键思路
    提出了一个由七个评估标准和21个具体指标组成的评分标准,用于评估人工智能安全框架的质量,并提出了三种应用此标准的方法。
  • 其它亮点
    提出的评分标准可用于比较不同公司的人工智能安全框架,有助于发现潜在的改进空间,并促进负责任的人工智能开发。
  • 相关研究
    该论文列举了一些已经发布了安全框架的公司,如Anthropic、OpenAI和Google DeepMind,并指出还有13家公司打算在2025年2月之前发布类似的框架。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论