Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems

简介

确保人工智能系统可靠地和强大地避免有害或危险行为是一个关键的挑战，特别是对于具有高度自主性和普适性智能，或用于安全关键环境中的人工智能系统。在本文中，我们将介绍和定义一系列AI安全方法，我们将其称为“保证安全”（GS）AI。这些方法的核心特征是，它们旨在产生具有高保证量化安全保证的AI系统。这是通过三个核心组件的相互作用来实现的：世界模型（提供AI系统如何影响外部世界的数学描述），安全规范（是可接受影响的数学描述）和验证器（提供可审计的证明证书，证明AI相对于世界模型满足安全规范）。我们概述了创建这三个核心组件的一些方法，描述了主要的技术挑战，并提出了一些潜在的解决方案。我们还论证了这种方法对于AI安全的必要性，以及主要替代方法的不足之处。
图表
解决问题

如何确保AI系统在高度自治和通用智能或安全关键环境下可靠地避免有害或危险行为？
关键思路

介绍一系列GS AI方法，旨在生成具有高保证的量化安全保证的AI系统。核心组件包括世界模型、安全规范和验证器。
其它亮点

论文提出了几种创建核心组件的方法，并讨论了主要技术挑战及其潜在解决方案。实验设计、数据集和开源代码也被讨论。GS AI方法的必要性和其他方法的不足也得到了探讨。
相关研究

最近的研究包括基于规则的方法、基于监督学习的方法和基于强化学习的方法。

Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems

评论