Yoshua Bengio被全世界公认为领先的人工智能专家之一,以其在深度学习方面的开创性工作而闻名,为他赢得了2018年A.M.图灵奖,“诺贝尔计算奖”,与Geoffrey Hinton和Yann LeCun一起。

他是蒙特利尔大学的正教授,也是Mila-魁北克人工智能研究所的创始人和科学主任。他作为高级研究员共同指导CIFAR机器学习项目,并担任IVADO的科学总监。

2019年,他获得了著名的基拉姆奖,并于2022年成为世界上h指数最高的计算机科学家。他是伦敦和加拿大皇家学会的院士、法国荣誉军团骑士和加拿大勋章军官。

出于对人工智能的社会影响和人工智能惠及所有人的目标,他积极为《关于人工智能负责任发展蒙特利尔宣言》做出了贡献。

 

本文来自Yoshua Bengio的博客文章

最近有很多关于人工智能风险的讨论,无论是在短期内使用现有方法,还是在长期内使用我们可以预期的进步。我一直直言不讳地表示,在国内和国际上加快监管的重要性,我认为这可以帮助我们缓解歧视、偏见、假新闻、虚假信息等问题。其他预期的负面结果,如对就业市场的冲击,需要改变社会安全网和教育系统。多年来,在军队中使用人工智能,特别是致命的自主武器,一直是一个令人大问题,显然需要国际协调。

然而,在这篇文章中,我想分享我对与人工智能系统相关的更激烈辩论的长期风险问题的想法,人们想象人工智能系统的行为可能与人权危险地脱节,甚至失去对人工智能系统的控制,这可能对人类构成威胁。

一个关键的论点是,一旦人工智能系统被赋予目标——以满足我们的需求——它们可能会产生与我们真正想要的东西不一致的子目标,甚至可能对人类造成危险。

主要论文:安全的人工智能科学家

可能有一条建立非常有用的人工智能系统的途径,完全避免了人工智能对齐问题,我称之为人工智能科学家,因为他们以理想科学家为模型,在现实世界中不自主行动,只专注于理论构建和问题回答。论点是,如果人工智能系统可以为我们提供好处,而不必在世界上自主行动,我们就不需要解决人工智能对齐问题。

这将表明一项政策,除非被证明是安全的,否则禁止可以在世界上发挥作用的强大自主人工智能系统(“执行人员”而不是“科学家”)。然而,这样的解决方案仍然会留下协调人民、组织和国家遵守此类安全有用的人工智能指导方针的政治问题。好消息是,目前引入人工智能监管的努力(如加拿大和欧盟的拟议法案,但在美国也采取行动)是朝着正确方向迈出的一步。

价值对齐的挑战

让我们首先回顾一下人工智能对齐的目标以及目标和子目标的问题。人类已经面临结盟问题:我们如何确保人民和组织(如政府和公司)以符合一套规范的方式行事,作为人类难以定义的总体福祉的代表?贪婪的个人和普通公司可能有自我利益(如利润最大化),这些利益可能会与我们的集体利益(如维护清洁和安全的环境以及每个人的健康)相冲突。

政治、法律、法规和国际协议都试图处理这个对齐问题,但并不完美。在某种程度上,由于任何个人或公司对权力集中的限制,支持集体利益的规范在民主国家是故意强制执行的。如果我们认识到现行规范的总体价值或获得社会认可,即使它们违背了我们自己的利益,我们也会自愿采用现行规范的演变趋势。

然而,默认情况下,机器不受这些人类约束。如果人工代理人具有人类的认知能力,而没有人类集体利益对齐的特权呢?如果没有对这样一个代理人的充分理解和控制,我们能否设计它以确保它遵守我们的规范和法律,尊重我们的需求和人性?

人工智能对齐和工具目标的挑战

在这个意义上,最古老和最有影响力的想象结构之一是阿西莫夫的一套机器人定律,它要求机器人不应该伤害人类或人类(以及所有关于法律出错的故事)。现代强化学习(RL)方法使通过反馈教授人工智能系统成为可能,以避免以邪恶的方式行事,但很难预测这种复杂的学习系统在新情况下的行为,正如我们在大型语言模型(LLM)中看到的那样。

我们还可以培训根据给定目标行事的RL代理。我们可以使用自然语言(使用现代)来陈述这些目标,但不能保证他们像我们一样理解这些目标。为了实现给定的目标(例如,“治愈癌症”),这些制剂可能会构成亚目标(“破坏癌细胞利用的分子途径来规避免疫系统”),而分层RL领域都是关于如何发现亚目标层次结构。可能很难预见这些子目标在未来会是什么,事实上,我们可以期望新出现的子目标避免被关闭(并为此目的使用欺骗)。

因此,很难保证这种人工智能代理不会选择与人类目标不一致的子目标(我们可能没有预见到同一途径阻止人类正常繁殖和癌症治愈危及人类物种的可能性,人工智能可能会以与我们不同的方式解释伤害的概念)。

这也被称为工具目标问题,我强烈建议阅读Stuart Russell关于控制人工智能系统的一般主题的书:人类兼容。Russell还提出了一个潜在的解决方案,需要人工智能系统估计其对人类偏好的不确定性,并因此保守地行事(即避免以可能伤害人类的方式行事)。应该加强对人工智能对齐的研究,但我在这里提出的是一个解决方案,可以完全避免这个问题,同时限制我们将设计的人工智能类型。

拥有大型神经网络的人工智能科学家进行贝叶斯推理

我想在这里概述一种构建安全人工智能系统的不同方法,这将完全避免设定目标的问题和人工智能系统在世界上发挥作用的担忧(这可能是意料之外的和邪恶的)。

这个解决方案的模型是理想化的科学家,专注于建立对观测到的东西(也称为数据,在机器学习中)和解释这些观测的理论的理解。请记住,对于几乎任何一组观测,解释它们的理论都会有一些不确定性,这就是为什么一个理想的科学家可以接受许多与数据兼容的可能的理论。

处理这种不确定性的数学上干净和合理的方法被称为贝叶斯推断。它涉及列出所有可能的理论及其后验概率(根据数据原则上可以计算)。

它还规定了如何(原则上)如何以概率方式(称为贝叶斯后预测)回答任何问题,方法是将所有这些理论中任何问题的概率答案平均,每个理论都由理论的后验概率加权。

这自动更加重视解释数据的更简单理论。虽然这种理性决策原则已经知道很久了,但确切的计算是棘手的。然而,可以在大量示例上训练的大型神经网络的出现实际上为获得这些贝叶斯计算的非常好的近似值打开了大门。这些理论可能是因果的,这意味着它们可以更容易地推广到新的环境,利用分布的自然或人为变化(称为干预)。这些大型神经网络不需要明确列出所有可能的理论:它们只需通过训练有素的生成模型隐式地表示它们,该模型可以一次采样一个理论。

另请参阅我最近关于基于模型的机器学习的博客文章,它指向了相同的方向。这种神经网络可以被训练成近似理论上的贝叶斯后分布,也可以被训练成近似问题的答案(也称为概率推断或贝叶斯后预测)。

有趣的是,随着我们使这些网络变大并训练它们更长时间,我们保证它们将趋向贝叶斯最佳答案。关于如何以最有效的方式设计和训练这些大型神经网络,仍然存在悬而未决的问题,可能从人类大脑在系统2层面的推理、想象和规划中汲取灵感,这个主题近年来推动了我大部分研究。然而,前进的道路相当明确,可能既可以消除幻觉和当前大型语言模型的多步推理困难问题,也可以提供安全有用的人工智能,正如我在下面所论证的那样。

人工智能科学家和人类一起工作

如果我们限制使用这些人工智能系统,以(a)对可用的观测结果进行建模,并且(b)回答我们可能提出的关于相关随机变量的任何问题(与这些答案相关的概率),这将是安全的。

人们应该注意到,这些系统可以在不涉及目标或不需要这些系统在世界上实际发挥作用的情况下进行培训。训练此类人工智能系统的算法纯粹关注概率意义上的真理。他们不试图取悦我们,也不试图以符合我们需求的方式行事。他们的产出可以被视为理想科学家的产出,即解释性理论和对这些理论帮助阐明的问题的回答,增强了我们自己对宇宙的理解。

提出相关问题并采取相应行动的责任仍掌握在人类手中。这些问题可能包括要求进行建议的实验来加速科学发现,但人类仍然需要决定如何(希望以道德和法律方式)使用这些信息行事,而人工智能系统本身不会将知识寻求作为明确的目标。

这些系统不能自己洗碗或建造我们的小工具,但它们仍然可以对人类非常有用:它们可以帮助我们弄清楚疾病如何运作,以及哪些疗法可以治疗它们;它们可以帮助我们更好地了解气候变化如何,并确定可以有效地从大气中捕获二氧化碳的材料;它们甚至可以帮助我们更好地了解人类如何学习,以及如何改善和民主化教育。

近几个世纪以来人类进步背后的一个关键因素是通过科学过程积累的知识,以及从这些知识中得出的解决问题的工程方法或刺激其发现。拟议的人工智能科学家路径可以为我们提供科学和工程方面的重大进步,同时将做事、目标和道德责任留给人类。

政治挑战

然而,仅仅存在一套构建安全有用的人工智能系统的指导方针并不能防止恶意或不知情的人类构建不安全的人工智能系统,特别是如果此类人工智能系统可以为这些人及其组织带来额外的优势(例如在战场上,或获得市场份额)。

这一挑战似乎主要是政治和法律上的,需要一个在国内和国际上实例化的强大监管框架。我们在核电或人类克隆等领域有国际协议的经验,可以作为例子,尽管由于数字技术的性质,我们可能会面临新的挑战。

这可能需要超出我们当前国际政治习惯的协调水平,我想知道我们当前的世界秩序是否非常适合这一点。令人欣慰的是,保护自己免受人工智能短期风险的需求应该带来一个治理框架,这是保护我们免受人工智能失控的长期风险的良好第一步。

提高对人工智能风险的普遍认识,迫使更多的透明度和文档化,要求组织在部署人工智能系统之前尽最大努力评估和避免潜在风险,引入独立监督机构来监测新的人工智能发展等,不仅有助于减轻短期风险,还有助于降低长期风险。

内容中包含的图片若涉及版权问题,请及时与我们联系删除