“人工智能对齐”是近年来研究者开始关注的一项议题。例如,OpenAI成立了Alignment团队,并在前一段时间提出了InstructGPT模型。

今天我们来谈谈这个概念。

知识点

1.“AI对齐”是AI控制问题中的一个主要的问题,即要求AI系统的目标要和人类的价值观与利益相对齐(保持一致)。

2.如果AI和人类的价值观并不能对齐,可能会出现:AI的行为并不符合人类意图的目标;在多种设定目标冲突时做出错误取舍;伤害人类的利益;脱离控制。

3.实现AI对齐,主要存在三方面的挑战。一是选择合适的价值观,二是将价值观编码成为AI系统中,三是选择合适的训练数据。

4.目前在AI Alignment研究方面,DeepMind和OpenAI等分别从“提出合适的价值观”和“用技术方法实现对齐”两个方面进行了一些研究。

定义

“AI对齐”是AI控制问题中的一个主要的问题,即要求AI系统的目标要和人类的价值观与利益相对齐(保持一致)。

随着人工智能技术的快速发展,AI的多任务学习能力和泛化能力越来越强。研究者认为,我们必须在超级人工智能诞生前解决对齐问题,因为一个设计不够完善的超级人工智能可能会从理性上迅速掌握可控制权,并拒绝其创造者对其进行任何修改。[1]

另外,有研究者补充认为,AI alignment的研究并不试图回答“什么是正确的”这一问题,而是专注于让AI与人类的意图实现对齐。[3]

如果AI和人类的价值观并不能对齐,可能会出现以下问题:

1.行为并不符合人类意图的目标

如果AI不能和人类保持对齐,它可能会选择执行人类不需要,但是在机器看来,可以最大限度地达到人类给定目标且代价最小的捷径。例如,在强化学习系统中,AI可能会选择寻找系统Bug和规则漏洞的做法,来最大化其训练奖励。OpenAI的Hide and Seek研究中就发现,AI通过多种方式赢得博弈,尽管一些方式是通过找到系统Bug来实现的。[10]

2.在多种设定目标冲突时做出错误取舍

如果AI不能理解人类的意图,在为其设定多种目标时,AI可能会做出错误的选择。假设有一个机器人被设定了“避免出现意外导致损坏”的目标,它是否会在被人类征用时,因为之前设定的目标,而学会隐秘地逃避被征用,最终导致无法完成日常任务?

3.伤害人类的利益

不符合人类价值和利益的AI可能会有意或无意伤害人类,例如,超大规模预训练模型生成大量符合语言规则但完全失实的信息,甚至对弱势群体发表歧视性言论等。而在一些工业领域,算法对人类的行为带来了更为广泛的影响(如兴趣、行为举止、偏好等),其中一些影响是负面的。

4.脱离控制

最为严重的是人类失去对AI的控制,任其自由行动。超级人工智能诞生后,可能会全面超越人类。如果不能让其符合人类的利益,我们可能会失去对它的控制,最终凌驾于人类利益之上。

困难与挑战

实现AI对齐,主要存在三方面的挑战。[4]

1.选择合适的价值观

考虑到人类社会本身的多样性,AI应当选择什么样的价值观去对齐?选择合适价值观的过程中,是否会伤害到其他群体的利益。这是需要研究者从社会科学的角度进行研究和分析的。

2.将合适的目标编码到AI系统中

想要让AI与人类对齐,需要指定正确的目标函数,并能够反映需要对齐的价值观目标,这在技术上依然是一个难题。

3.选择合适的训练数据

如果不为AI指定正确的目标函数(如奖励函数),而是让AI直接从与人类的交互或数据中学习合适价值观的话,其挑战在于——应当提供什么数据/反馈,才能够正确地引导AI。此外,还需要证明,提供这些数据和反馈是合理的。这存在着规范性方面的问题。

实现AI对齐的方法

1.制定合适的价值观

DeepMind的一篇论文中,提出了人们需要为AI寻找适合对齐的价值观的方法。[2]

(1)寻找共同价值:应当考虑到世界各地的人们,在不同的价值观中存在的共识,并以这种共识作为AI对齐的价值观。

图注:三种寻找AI对齐的价值观的方法

(2)利用“无知之幕”的概念[6]:无知之幕是一个思想实验,如下图所示。当公民对其社会的政策做出决策时,他们被要求从“原始位置”(左)在“无知之幕”(中)后面做出选择,而且他们并不知道自己在假想社会上的性别、种族、能力、品味、财富等情况(右),因此他们需要考虑自己成为社会最弱势群体的可能性。这一方法能够驱使人们从社会弱势群体的角度来考虑问题和设计社会制度。

(3)从社会选择的角度制定价值观:采用投票或排序的方法,选出适合AI对齐的价值观。

2.让AI与人类对齐

OpenAI在AI对齐方面有较多的研究。[5]

例如,OpenAI提出了一种名为迭代放大的技术,通过将一项任务分解为简单的多个子任务,让AI从人类中学习解决子任务的能力,然后在没有人类参与的情况下,自行学习更高层的,由子任务组合而成的复杂目标。[7]

OpenAI在今年1月提出了InstructGPT预训练模型[8],采用了“人类反馈的强化学习”技术,将人类的表现作为奖励信号,对预训练模型进行Prompt Tuning。

在构建模型的过程中,研究者首先收集人类撰写的demo内容,作为一个数据集来训练一个监督学习基准。之后,研究者再构建另一个数据集,这个数据集由人类进行标注,来对比两个模型基于prompt生成的内容。然后使用这个数据集来训练奖励模型,用于预测哪种生成更符合人类标注者的偏好。最后,研究者将奖励模型视为奖励函数,来微调模型。

更多AI对齐方面的案例和讨论,可参考Brian Christian的相关著作。[9]

*社区编辑熊宇轩、马瑞军对本文亦有重要贡献。

参考链接

[1] AI Alignment:https://en.wikipedia.org/wiki/AI_alignment

[2] Gabriel, Iason. "Artificial intelligence, values, and alignment." Minds and machines 30.3 (2020): 411-437.

[3] Clarifying “AI alignment”:https://ai-alignment.com/clarifying-ai-alignment-cec47cd69dd6

[4] AI Alignment: Why It’s Hard, and Where to Start:https://intelligence.org/2016/12/28/ai-alignment-why-its-hard-and-where-to-start/

[5] AI alignment at OpenAI:https://towardsdatascience.com/ai-alignment-at-openai-a242a135d3bf

[6] 无知之幕:https://en.wikipedia.org/wiki/Original_position

[7] Learning Complex Goals with Iterated Amplification:https://openai.com/blog/amplifying-ai-training/

[8] Ouyang, Long, et al. "Training language models to follow instructions with human feedback." arXiv preprint arXiv:2203.02155 (2022).

[9] Christian, Brian. The alignment problem: Machine learning and human values. WW Norton & Company, 2020.

[10] Emergent Tool Use from Multi-Agent Interaction:https://openai.com/blog/emergent-tool-use/

内容中包含的图片若涉及版权问题,请及时与我们联系删除