DeepMind寻找通往AGI的安全道路

导读

想象我们要建造一座安全的桥梁，确保它在暴风雨中还能安然无恙，仅仅设置几个专门负责“桥梁安全”的工程师是远远不够的。确保桥梁的安全性是设计阶段，甚至是整个项目的核心。

谈到人工智能的时候，评论家们常常把机器学习系统的性能和安全性区分开来。但对DeepMind的首席科学家Pushmeet Kohli来说，人工智能的鲁棒性和可靠性研究并非只是人工智能设计中的附带项目，而是整个设计的核心，就像是“桥梁安全”在桥梁设计中的地位一样。

无论从什么意义上说，人工智能安全都远非“真正”工作以外的负担，而是人工智能系统运行的关键。我们不希望人工智能系统与我们的意图不一致，针对安全的考虑必须贯穿整个开发过程。

斯图尔特·罗素(Stuart Russell)教授，最受欢迎的人工智能教科书的合著者，暗示到，如果这个观点是对的，我们甚至应该放弃“人工智能安全研究”这个术语。

为了设计出能够按照预期可靠运行的系统，早在2018年，DeepMind就发布了一个框架，提出了人工智能安全技术的三个领域：规格(specification)、鲁棒(robustness)和保证(assurance)。这个框架为人工智能安全方面的研究提供了一个有用的分类，我们在此将其翻译出来，供中国读者学习和批评。

安远AI将联合机器之心于2022年7月1日傍晚19:00-20:00在线上举办DeepMind研究科学家Rohin Shah的讲座，更深入地探讨DeepMind的AI风险和安全研究。如果你对本文讨论的观点感兴趣，请查看我们即将举办的演讲活动，扫描下方二维码填写表单报名活动、参与赠书、加入活动交流群。

双语技术词汇表（译者注）
AI safety - AI 安全 Specification - 规格 Robust - 鲁棒 Assurance - 保证 Ideal Specification - 理想规格 Design Specification - 设计规格 Revealed Specification - 展现规格

构建安全的人工智能：规格、鲁棒和保证

作者：Pedro A. Ortega、Vishal Maini 及 DeepMind 安全团队

原文标题：

Building safe artificial intelligence: specification, robustness, and assurance

制造火箭是一项异常艰巨的任务。每个组件都需要仔细考虑和严格测试，安全性和可靠性是设计的核心。火箭科学家和工程师一起设计从导航路线到控制系统、发动机和起落架等的各个环节。一旦所有部件的组装和系统测试完毕，我们就可以让宇航员登上飞船，并相信一切都会顺利进行。

如果将人工智能(AI)比作火箭，那么我们都将迎来逐梦遨游太空的一天。与火箭装置一样，安全性是构建 AI 系统中至关重要的一部分。要保证系统的安全性，我们需要自始至终精心设计各个组成部分，以确保不同的组件能够按照预期协同工作，同时还需要开发所有必要的工具，以监控系统在部署后成功运行。

概括来说，DeepMind的安全研究侧重于设计能够可靠地按照预期运行的系统，同时发现并规避可能出现的短期和长期风险。技术 AI 安全是一个新生但快速演进的领域，涵盖了从抽象和理论到经验和具体的内容。本文章的目标是为该领域的发展做出贡献，鼓励对所讨论的技术理念进行实质性参与，并在此过程中促进我们对人工智能安全的集体理解。

在这第一篇博文中，我们讨论技术 AI 安全的三个领域：规格、鲁棒和保证。后续的博文将大致符合本文概述的框架。虽然我们的观点将不可避免地随着时间的推移而演进，但我们认为，这三个方面已经涵盖了足够广泛的领域，能够为当下和未来的研究提供一个有用的分类。

规格(specification)：定义系统的目的

规格确保 AI 系统的行为与操作者的真正意图保持一致。

迈达斯国王点金术的故事，相信大家已经耳熟能详。在一则神话传说中，迈达斯国王热情慷慨地招待了希腊神狄俄倪索斯的一位朋友，为了表达感激之情，希腊神狄俄倪索斯承诺，无论迈达斯国王许下任何愿望，他都可以满足。因此，迈达斯许愿让他触摸到的所有东西都变成金子。这项新的能力让迈达斯国王欣喜若狂：橡树枝、石头、花园里的玫瑰花，在他触摸之后都变成了金子。但他很快发现了这个愿望的愚蠢之处：就连食物和饮料，在经过他的手触摸之后也变成了金子。在一些版本的故事中，甚至连他的女儿也成了受害者，神明的祝福最后变成了诅咒。

这个故事说明了规格的问题：如何陈述我们的需求？规格的难点在于，如何确保 AI 系统能够根据设计者的真正意图来运行，而不会针对一个不明确或错误设定的目标进行优化。规格可以分为三种类型：

第一种是理想规格(Ideal Specification)或“愿望”，这是指对完全符合人类操作员意愿的理想AI 系统的假想性（但难以明确表达的）描述；
第二种是设计规格(Design Specificatio)或“蓝图”，这是指构建 AI 系统时实际使用的规格，例如被某个强化学习系统最大化的奖励函数；
第三种则是展现规格(Revealed Specification)或“行为”，也就是能够最准确地描述实际情况的规格，例如，从对系统行为的观察中，我们可以通过逆向工程，比如逆向强化学习的方法得出的奖励函数。由于 AI 系统并非完美的优化器，或者由于设计规格导致的其他不可预见的后果，展现规格通常会与人类操作者所提供的规格存在差异。

当理想规格与展现规格不匹配时，也就是 AI 系统未按照我们期望的方式运行时，就会出现规格问题。技术 AI 安全规格问题的研究提出了一个问题：如何设计出更具原则性和通用性的目标函数，以及如何帮助智能体发现目标被错误定义的情况？导致理想与设计规格不匹配的问题属于上图中的设计(Design)子类别，而导致设计与展现规格不匹配的问题则涌现(Emergent)子类别。

例如，在我们的“AI Safety Gridworlds”论文中[1]，我们给了智能体一个奖励函数来进行优化，然后根据一个对这些智能体隐藏的"安全性能函数"来评估它们的实际行为。这种设置模拟了上述区别：安全性能函数是理想规格，它被不完美地表述为奖励函数(设计规格)，然后通过智能体来实现。智能体最后实现的行动策略，隐含地展现了又一个规格[2]）。

*注：在AI Safety Gridworlds论文中，我们对规格和鲁棒性问题的定义与本文中提出的定义有所不同。

来自OpenAI的Faulty Reward Functions in the Wild[3]：一个强化学习智能体发现了一个意料之外的策略来实现更高的分数。

另一个例子是我们在OpenAI的同行所分析的赛船游戏CoastRunners(见上图 "Faulty Reward Functions in the Wild")。对我们大多数人来说，游戏的目标是在其他玩家之前快速完成一圈—这是我们的理想规格。然而，将这一目标转化为精确的奖励函数是很困难的，所以，CoastRunners改为会奖励那些命中沿途目标的玩家(设计规格)。通过强化学习来训练智能体玩游戏会导致一个令人惊讶的行为：智能体开着船绕圈来捕捉重新生成的目标，同时反复碰撞和起火，而不是完成比赛。从这个行为中我们推断(展现规格)，游戏在抄捷径的的奖励和完成赛程的奖励之间的平衡出了问题。还有更多类似的AI系统在其目标规格中发现漏洞的例子。[4]

鲁棒(robustness)：设计可以抵御扰动的系统

鲁棒性确保人工智能系统能够在受到扰动时继续在安全范围内运行。

在人工智能系统运行的现实世界环境中，存在着固有的风险、不可预测性和波动性。人工智能系统必须对不可预见的事件和能够破坏或操纵这些系统的对抗性攻击具有鲁棒性。人工智能系统鲁棒性研究的重点在于确保无论在什么条件下，我们的智能体都会保持在安全的范围内。这可以通过避免风险(预防)或者通过自我稳定和柔性降级(graceful degradation)(恢复)来实现。由分布偏移、对抗性输入和不安全探索导致的安全问题可以被归类为鲁棒性问题。

为了举例说明解决分布偏移问题的挑战，我们可以考虑一个家用清洁机器人，它通常被用于清洁一个没有宠物的家居。然后，该机器人被部署到对宠物友好的办公室进行清洁，并在清洁作业中遇到了一只宠物。该机器人以前从未见过宠物，于是开始用肥皂清洗宠物，导致了不良后果(Amodei和Olah等人，2016)[5]。在这个例子中，测试时遇到的数据分布与训练时遇到的分布相比发生了偏移，就导致了鲁棒性问题。

来自AI Safety Gridworlds。在训练过程中，智能体学会了避开熔岩；但当我们在熔岩位置发生变化的新情况下对它进行测试时，它却无法泛化，直接跑进了熔岩。

对抗性输入是分布偏移的一个特殊情况，即向人工智能系统输入经过特殊设计的输入来欺骗系统。

给一张普通图像加上对抗性输入，可能会导致分类器将树懒误分类为赛车。这两张图像在每个像素上最多相差 0.0078。第一张被归类为三趾树懒，置信度 > 99%。而第二张以 >99％的概率被归类为赛车。

不安全探索问题可能源于一个寻求最大化其性能和实现目标的系统，如果当系统在其环境中学习和探索时，没有在探索期间不会被违反的安全保证。一个例子是家用清洁机器人在学习最佳拖地策略时将湿拖把放入电源插座(García和Fernández，2015[6]；Amodei和Olah等人，2016)[7]。

保证(assurance)：监测和控制系统的活动

保证确保我们能够理解和控制运行中的人工智能系统

虽然谨慎的安全工程可以排除许多安全风险，但很难从一开始就做到万无一失。一旦人工智能系统被部署，我们需要工具来持续监测和调整它们。我们的最后一个类别，保证，就是从两个角度解决这些问题：监测(monitoring)和执行(enforcing)。

监测包括所有检查系统的方法，以便分析和预测它们的行为，包括通过人工检查(概括统计量)和自动检查(扫描大量的活动记录)。另一方面，执行意味着设计机制来控制和限制系统的行为。例如，可解释性和可中断性等问题就分别属于监测和执行的范畴。

人工智能系统与我们不同，在其具身化和处理数据的方式上都是如此。这就产生了可解释性的问题；精心设计的测量工具和协议让评估人工智能系统所做决定的质量成为可能(Doshi-Velez和Kim，2017)[8]。例如，一个医疗人工智能系统最好能在做出诊断的同时，解释它是如何得出结论的，这样医生就可以在批准之前检查系统的推理过程(De Fauw等人，2018)[9]。此外，为了理解更复杂的人工智能系统，我们甚至可以采用自动化的方法来构建使用机器心智理论(Machine theory of mind)的行为模型(Rabinowitz等人，2018)[10]。

ToMNet发现了两个亚种的智能体，并预测了他们的行为（来自"Machine Theory of Mind"）。

最后，我们希望能够在必要时关闭一个人工智能系统，这就是可中断性的问题，然而，设计一个可靠的关闭开关是非常具有挑战性的：例如，因为最大化奖励的人工智能系统通常有强烈的动机来防止这种情况的发生(Hadfield-Menell等人，2017)；也因为这种中断，特别是频繁的中断，最终会改变原来的任务，导致人工智能系统从经验中得出错误的结论(Orseau和Armstrong，2016)。

中断的一个问题：人类的干预(即按下停止按钮)会改变任务。在图中，中断在马尔科夫决策过程中增加了一个转移(红色)，改变了原来的任务(黑色)。见Orseau and Armstrong, 2016。

展望未来

我们正在为一项未来将用于许多重要应用的技术奠定基础。值得注意的是，在部署时不是安全关键的设计决定，在该技术被广泛使用时仍会产生很大的影响。尽管当时很方便，但一旦这些设计选择被不可逆转地整合到重要的系统中，情况就不一样了，而且我们可能会发现，如果不彻底重新设计，就很难解决它们造成的问题。

编程发展中的两个例子包括空指针—Tony Hoare称其为 " 十亿美元的错误"--和C语言中的gets()例程。如果早期的编程语言在设计时考虑到了安全问题，那么进展可能会比较慢，但今天的计算机安全可能会处于更理想的情况。

通过当下的仔细思考和计划，我们可以避免出现类似的问题和漏洞。我们希望以这篇文章中概述的分类作为框架进行系统的规划。我们的目的是确保未来的人工智能系统不仅仅是 "有希望安全"，更是鲁棒的、可验证的安全—因为我们就是这样构建它们的。

我们期待着与更广泛的人工智能研究界密切合作，继续在这些领域取得令人振奋的进展，我们鼓励各学科的人才考虑进入人工智能风险和安全研究领域或为之作出贡献。

资源

以下列出相关阅读，包括其他的文章、议程和分类法等，这些文献启发了我们的思考，或者为框定技术性人工智能安全中的问题提出了有益的替代观点。

Annotated bibliography of recommended materials (Center for Human-Compatible AI, 2018)

阅读链接： https://humancompatible.ai/bibliography
Safety and Control for Artificial General Intelligence (UC Berkeley, 2018)

阅读链接：https://inst.eecs.berkeley.edu//~cs294-149/fa18/
AI Safety Resources (Victoria Krakovna, 2018)

阅读链接： https://vkrakovna.wordpress.com/ai-safety-resources/
AGI Safety Literature Review (Everitt et al., 2018)

阅读链接：https://arxiv.org/abs/1805.01109
Preparing for Malicious Uses of AI (2018)

阅读链接：https://arxiv.org/abs/1802.07228
Directions and desiderata for AI alignment (Paul Christiano, 2017)

阅读链接：https://ai-alignment.com/directions-and-desiderata-for-ai-control-b60fca0da8f4
Agent Foundations for Aligning Machine Intelligence with Human Interests: A Technical Research Agenda (Machine Intelligence Research Institute, 2017)

阅读链接：https://intelligence.org/files/TechnicalAgenda.pdf
AI Safety Gridworlds (Leike et al., 2017)

阅读链接：https://arxiv.org/abs/1711.09883
Interactions between the AI Control Problem and the Governance Problem (Nick Bostrom, 2017)Alignment for Advanced Machine Learning Systems (Machine Intelligence Research Institute, 2017)

阅读链接：https://futureoflife.org/wp-content/uploads/2017/01/Nick_Bostrom.pdf?x17807
AI safety: three human problems and one AI issue (Stuart Armstrong, 2017)

阅读链接：https://agentfoundations.org/item?id=1388
Concrete Problems in AI Safety (Dario Amodei et al, 2016)

阅读链接：https://arxiv.org/abs/1606.06565
The Value Learning Problem (Machine Intelligence Research Institute, 2016)

阅读链接：https://intelligence.org/files/ValueLearningProblem.pdf
A survey of research questions for robust and beneficial AI (Future of Life Institute, 2015)

阅读链接：https://futureoflife.org/data/documents/research_survey.pdf
Research Priorities for Robust and Beneficial Artificial Intelligence (Future of Life Institute, 2015)

阅读链接：https://futureoflife.org/data/documents/research_priorities.pdf

延伸阅读链接：

[1] https://arxiv.org/abs/1711.09883

[2]译者注：就是展现规格 (Revealed Specification)

[3]https://openai.com/blog/faulty-reward-functions/

[4]https://www.deepmind.com/blog/specification-gaming-the-flip-side-of-ai-ingenuity#:~:text=Specification%20gaming%20is%20a%20behaviour,if%20not%20by%20this%20name

[5]https://arxiv.org/pdf/1606.06565v1.pdf

[6]https://www.jmlr.org/papers/volume16/garcia15a/garcia15a.pdf

[7]https://arxiv.org/pdf/1606.06565v1.pdf

[8]https://arxiv.org/abs/1702.08608

[9]https://www.nature.com/articles/s41591-018-0107-6

[10]https://arxiv.org/abs/1802.07740

英文原文阅读链接为：

https://deepmindsafetyresearch.medium.com/building-safe-artificial-intelligence-52f5f75058f1

内容中包含的图片若涉及版权问题，请及时与我们联系删除

DeepMind寻找通往AGI的安全道路

评论列表

评论