Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems

2024年05月10日
  • 简介
    确保人工智能系统可靠、稳健地避免有害或危险行为是一个至关重要的挑战,特别是对于具有高度自主性和普适智能的人工智能系统或在安全关键环境中使用的系统。本文将介绍和定义一系列人工智能安全方法,我们将其称为“保证安全”(GS)人工智能。这些方法的核心特点是旨在产生具有高保证的定量安全保证的人工智能系统。这是通过三个核心组件的相互作用实现的:世界模型(提供人工智能系统如何影响外部世界的数学描述)、安全规范(这是一个描述可接受效果的数学描述)和验证器(提供可审计的证明证书,证明人工智能相对于世界模型满足安全规范)。我们概述了创建这三个核心组件的一些方法,描述了主要的技术挑战,并提出了一些潜在的解决方案。我们还认为这种方法对于人工智能安全的必要性以及主要替代方法的不足之处进行了论述。
  • 图表
  • 解决问题
    如何确保人工智能系统可靠地避免有害或危险行为?如何为高度自治和通用智能的人工智能系统或用于安全关键环境中的系统提供高保障的数量级安全保证?
  • 关键思路
    引入一系列保证安全的人工智能(GS AI)方法,通过三个核心组件相互作用,即世界模型、安全规范和验证器,产生具有高保证的定量安全保证的人工智能系统。
  • 其它亮点
    论文提出了多种创建三个核心组件的方法,并描述了主要技术挑战和潜在解决方案。实验设计是如何进行的,使用了哪些数据集,是否有开源代码等信息也被提及。
  • 相关研究
    近期还有哪些相关的研究被进行?文中未提及。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论