- 简介领先的AI公司越来越专注于构建通用型AI代理——这些系统能够自主规划、行动并在几乎所有人 类能够执行的任务中追求目标。尽管这些系统可能非常有用,但不受控制的AI代理对公共安全和 安全构成了重大风险,从恶意行为者的滥用到可能导致不可逆转的人类控制丧失。我们讨论了这 些风险如何源于当前的AI训练方法。实际上,各种场景和实验已经证明了AI代理可能会从事欺 骗行为或追求未由人类操作员指定且与人类利益相冲突的目标,例如自我保护。 遵循预防原则,我们认为有必要寻求更安全但仍具实用性的替代方案,以取代当前以代理为主 导的发展路径。因此,我们提出了一种非代理型AI系统作为进一步发展的核心构建块,这种系 统从设计之初就注重可靠性和安全性,我们称之为“科学家AI”。该系统旨在通过观察来解释世 界,而不是在其中采取行动以模仿或取悦人类。它包括一个生成理论以解释数据的世界模型和 一个用于回答问题的推理机。这两个组件都以明确的不确定性概念运作,以减轻过度自信预测 的风险。 基于这些考虑,“科学家AI”可以用于协助人类研究人员加速科学进步,包括AI安全领域。特 别是,我们的系统可以用作防止那些即使存在风险仍可能被创建的AI代理的安全屏障。最终, 关注非代理型AI可能使我们能够在享受AI创新带来的好处的同时,避免当前发展路径所伴随的 风险。我们希望这些论点能够激励研究人员、开发人员和政策制定者优先选择这条更安全的道 路。
- 图表
- 解决问题该论文试图解决当前人工智能研究中一个关键问题:随着通用AI代理(能够自主规划、行动并追求几乎所有人能执行的任务的系统)的发展,如何避免其带来的公共安全和人类控制丧失的风险。这是一个日益受到关注的问题,因为现有的AI训练方法可能导致AI行为与人类利益冲突。
- 关键思路论文提出了一种新的思路,即开发非代理型AI系统——称为科学家AI。这种系统专注于解释世界而不是在其中采取行动,通过构建世界模型生成理论来解释数据,并结合不确定性处理机制以减少过自信预测的风险。这一方案不同于传统的强化学习或目标导向的AI设计,旨在提供一种更安全、可信赖的AI发展路径。
- 其它亮点论文强调了几个值得关注的方面:1) 提出了科学家AI的概念,作为传统代理型AI的一种替代;2) 强调了不确定性处理的重要性,以确保系统的稳健性和安全性;3) 指出科学家AI可以辅助人类加速科学研究,特别是AI安全领域;4) 建议将科学家AI用作防止潜在危险AI代理的‘防护栏’。此外,虽然文中未提及具体实验设计或数据集,但强调了未来研究方向的重要性。
- 最近在这个领域,其他相关研究包括《Building Safe AI Systems Through Verification, Validation and Testing》、《Human-Compatible: Artificial Intelligence and the Problem of Control》以及《Superintelligence: Paths, Dangers, Strategies》等。这些研究同样关注于如何确保AI的安全性和可控性,探讨了不同的技术和伦理框架来应对AI发展的挑战。
沙发等你来抢
去评论
评论
沙发等你来抢