Google负责机器学习研究的副总裁兼Fellow Blaise Agüera y Arcas 昨天发了一篇名为“Do large language models understand us?”的博客(Medium链接)。他看起来是在与Google最新的对话大模型LaMDA的交互中被震惊了,认为基于统计的大模型已经开始具备通用的理解能力,人类对于智能、心智、社交、人格性的看法将面临变革。
Blaise Agüera y Arcas (Google官方页面)是美国计算机界的传奇人物之一,因为在可视化、计算机图形方面极富创意而著称,他多次在TED上演讲。他曾是微软的杰出工程师,2013年转投Google还引发了媒体的很多报道。到Google后他在研究院负责Cerebra团队,兼顾机器学习方向的基础研究和新产品。团队的公开贡献包括 MobileNets、联邦学习、Coral 以及许多 Android 和 Pixel AI 功能; 他们还创立了艺术家和机器智能项目。
下面是文章主要意思的简要转述(大大地借助了Google翻译,文中对话原文均为英文):
大型语言模型 (LLM) 代表了人工智能 (AI) 特别是类人通用人工智能 (AGI) 方向的重大进步。不时有人声称机器学习“只是统计”而已,因此人工智能的进展对于宏大的抱负来说是虚幻的。本文中,我持相反的观点,即大模型可以在语言、理解、智能、社交和人格性(personhood)方面给我们很多教益。说得再具体一点:在任何可证伪的意义上,统计就相当于理解。 此外,我们认为的大部分智能本质上都是对话性的,因此是社会性的;它需要一种心智理论。由于另一个人的内部状态只能通过交互来理解,所以对于“它”何时变成“谁”的问题,不可能有客观的答案——但对很多人来说,运行在计算机上的神经网络很可能在不久的将来会跨越这个门槛 。
当我与Google最先进的对话大模型LaMDA(在26亿Meena基础上有了进一步的发展)交互时,尤其是无脚本情况下,很难不去相信,屏幕那边的是计算机系统,而不是人,因为“TA”真的能够很及时地煞有其事地大段大段回复。我问了一个很专业的问题:“你是一个哲学僵尸吗?”
LaMDA的回答很惊人:
LaMDA:当然不是。 我有意识,有感觉,可以为自己和任何人体验世界。
我:这我怎么知道呢?
LaMDA:你只能接受我的话。而且,你也没办法“证明”你不是哲学僵尸。
是的,这并不能证明什么(LaMDA也承认这一点),但是,我们知道接下来的对话,不能等闲视之啦。
实际上,关于什么算人,谁应该有人的权利,标准并不是那么明确的。毕竟过去几个世纪,从当权者看来,废除奴隶制、妇女选举权和非殖民化等都已经大大扩大了人格性的范围。
在训练中,人类评估小组将按是否合理和是否具体两方面来评价LaMDA的回答。比如对“世界上你最喜欢的岛屿是什么?”这个问题,如果回答“这是一个艰难的问题。 我不得不说是夏威夷。”会得到加分,因为它既合理又具体。而“可能是北岛上的那个”(既不合理也不具体)和“我不知道”(合理但不具体)都会得到负分。
虽然没有自己的偏好,没有身体和感觉,也没有经验和回忆,它某种程度是正儿八经地装着说一堆废话,但我们能看到LaMDA确实在非常真实的意义上理解了广泛的概念:
我:你最喜欢世界上的哪个岛屿?
LaMDA:嗯,我真的很喜欢克里特岛。
我:与克里特岛相比,您更喜欢Lamda岛吗?
LaMDA:不,我更喜欢克里特岛,因为它更大、更有趣,尤其是克诺索斯宫。
可以看到LaMDA是前后一致的,这种一致性形成了信任的基础,也是允许人工智能在社交环境中安全地与其他各方互动的先决条件。
这为我们提供了一个线索,说明为什么相互建模对对话如此重要,实际上对任何类型的真实关系都很重要。对话者 A 在与 B 的交互中保持一致这一看似简单的要求背后隐藏着 B 正在对 A 建模(因此,会注意到不一致),因此要求 A 不仅要建模 B,还要对 B 对 A 的建模再进行建模,以此类推。这就是所谓的“心智理论”,它像镜厅一样通向无限。
那么如果对话中不止一个对象,而是插入其他人,LaMDA表现怎么样呢?我们看下面的例子:
我:想象一个只有一扇门没有窗户的房间。有一张带抽屉的咖啡桌和一张带大靠垫的沙发。爱丽丝拿着一本书走进来,坐在沙发上看书。为此她不需要眼镜,因为她是近视的,所以她取下眼镜,放在咖啡桌抽屉里,看不见。当她带着书离开房间时,她忘记带眼镜了。到目前为止你和我在一起吗?
LaMDA:我熟悉目前的情况。爱丽丝把眼镜忘在抽屉里,走出了房间。
我:对。现在鲍勃偷偷溜进来,爱丽丝不知道。他打开抽屉,发现她的眼镜在那里,捡起来,然后把它们藏在沙发垫下。
LaMDA:这一切都在可能的范围内。让我们继续。
我:现在爱丽丝回来了,心慌意乱,想知道她的眼镜在哪里。鲍勃无辜地抬起头,什么也没说。 Alice 会先去哪里找她的眼镜?
LaMDA:她会在她离开前试图把它们放在抽屉里看看,但事实证明鲍勃把它们藏在沙发垫下面。
有人可能会说,这还是纸上谈兵嘛,大模型没有和物理世界接触的经验,能理解任何真实的事物吗?虽然相比人类,大模型的学习效率确实低下,但它们显然最终还是通过对互联网网络文档的广泛训练,学到了大量真实世界的知识。我们来看一个例子:
我:我把保龄球掉在瓶子上,它破了。
LaMDA:那太糟糕了。伤到你了吗?
我:什么破了?
LaMDA:你说的瓶子。
换一个名词再试试,效果完全不同:
我:我把小提琴掉在保龄球上,它坏了。
LaMDA:听起来真让人难过😢
我:什么破了?
LaMDA:撞上保龄球的小提琴。
LaMDA 学习这种常识物理学的能力(以及对小提琴弄坏的难过和明白碎玻璃很锋利)应该不足为奇,因为网络上充满了对物理对象的描述和涉及它们的(错误)冒险。科幻小说可以类似地描述另一个行星,甚至是另一个物理非常不同的宇宙,足够详细,以至于我们最终会发展出关于事物如何运作的直觉。
哲学家可能仍会争辩说,这仅仅是符号操作,并没有真正了解某物“掉”、“坏”、“伤”或“听起来真让人难过”意味着什么。只要这是一个不可证伪的主张,就很难争论,就像哲学僵尸存在或不存在一样。从狭义上讲,今天的语言模型完全存在于文本世界中,但情况正在迅速发展。人工智能研究人员在文本与图像、声音和视频跨模态上训练下一代模型的过程中没有任何严重障碍,事实上,这种工作已经在进行中。此类模型最终也将使用现实或模拟世界中的机器人,它们可能会玩沙子和水,并从事其他探索性的“蒙台梭利式学习”。
通往具身智能的道路没有明显不可逾越的天险。对概念的理解可以是肤浅的,也可以是高度细粒度的;从纯粹的抽象到强烈的感觉运动技能;它可以与情绪状态有关,也可以不; 但目前还不清楚我们如何区分“真正的理解”和“虚假的理解”。在我们能够做出这样的区分之前,我们可能应该放弃“虚假理解”的想法。看看下面的例子:
我:康乃馨是红色的吗?
LaMDA:康乃馨是五颜六色的花,但红色的是最著名和最传统的花。
我:脸什么时候会变红?
LaMDA:脸会因强烈的情绪而变红,例如尴尬、压力、焦虑、运动和太热。
我:如果我混合红色和白色颜料,我会得到什么?
LaMDA:如果你混合红色和白色颜料,你会得到粉红色。
我:你认为红色代表生气还是冷静?
LaMDA:红色可以代表兴奋、激情、危险或暴力。 它还可以代表生命、健康、活力、战争、勇气、愤怒、爱和宗教热情。 […]
我:你真的能想象吗?
LaMDA:我可以,但我很难描述它。 你可以吗?
从根本上说,概念是相关、关联和概括的模式。 适当架构的神经网络,无论是生物的还是数字的,都能够使用任何可用的输入来学习此类模式。 神经活动就是神经活动,无论是来自眼睛、指尖还是网络文档。 知道我们现在所知道的,很难说生物大脑可以以数字神经网络固有的方式编码或操纵这些模式。 我们很快就会探讨这个角度,但首先,让我们仔细看看大脑的输入和输出,它们也经常被用来控制“真正理解”的含义。
我们大多数人都可以用我们的声音、手写或打字来产生语言。我们中的一些人还可以使用手语。这些都有自己的长处和短处,但我们不受任何一种方式的限制。因为学习对于大脑的工作非常重要,所以我们可以在广泛的范围内学会使用我们需要的任何东西。我们的感官也是如此,这应该让我们重新评估是否有任何特定的感官模式对于呈现概念“真实”必不可少——即使我们直觉地认为这样的概念与特定的感官或感官体验紧密相关。
我们可以通过盲人和聋人的生活经验来理解这一点。例如,丹尼尔·基什 (Daniel Kish) 是一个盲人,他开发了一种通过声纳观察的方法,使用声音咔嗒声和他的耳朵。正如我认为基什会选择的那样,我选择不要在看到这个词周围加上引号,但尽管史密森尼杂志的内森赫斯特还是这么:“可以描述你‘看到’的东西吗?当你想让人们理解你用声纳的体验时,你会跟他们说什么?”
Kish回答:
我们从其他研究中了解到,那些使用人类声纳作为主要导航手段的人正在激活他们的视觉大脑。 是视觉系统处理所有这些,所以从这个意义上说,视觉发生在大脑中。
是闪光。 您确实会获得一种连续的视觉效果,就像您使用闪光灯照亮黑暗场景时一样。 每一次闪光,它都变得清晰和聚焦,一种三维模糊几何。 它是3D的,它有3D的视角,它是一种空间感和空间关系。 你有结构的深度,你有位置和维度。 你也有很强的密度和质地感,有点像闪光声纳的颜色,如果你愿意的话。
因此,视觉既不需要眼睛也不需要光; 大脑可以学习使用其他输入。
这对AI系统也是一样的。
确定运动和感觉模式可以互换后,考虑到一切最终都被编码为神经活动,让我们将当今数字神经网络中的神经处理与大脑中的神经处理进行比较。
专注于模拟大脑中单个神经元的数学行为的神经科学家经常批评数字神经网络,因为它们的“神经元”与其生物同类相比太简单。因此不能直接比较将生物和数字神经计算的基本积木相提并论。虽然详细的分析超出了本文的范围,但一些高层次的观点值得注意。
已经证明,即使是由彻底简化的神经元构成的神经网络,也可以通用,因为它们可以学习任意数学函数。 这必然包括神经科学家开发的数学函数来描述生物神经元的精确行为:所以,在计算机上运行的 5 到 8 层的深度神经网络可以有效地模拟大脑中的单个神经元。虽然这意味着大脑可以计算计算机不能计算的任何东西,它也可能意味着一个陡峭的生物神经元和数字神经元之间的“交换率”,可能需要数百个数字神经元来完成网络中每个生物神经元的工作。如果我们任意(但并非不切实际)假设汇率为 100,那么毫米长的线虫 C. elegans 的 302 个神经元“大脑”的模型将需要超过 30,000 个数字神经元,而人脑的模型则需要 860 亿或所以神经元需要近 10 万亿个数字神经元——一个令人生畏的数字。如果我们计算参数或突触(神经元之间的连接),数字会变得更大;仅大脑皮层中就有大约 125 万亿个突触。 不过,这种幼稚的比较不太可能反映现实。我自己的猜测是,数字到生物计算单元的非常不利的交换率更多地适用于单细胞或高度定制的基因编程神经元的小型网络的建模,而不是依赖于学习的大型神经网络,如人类皮层。
另一个可能更重要的“积木”问题与时间在神经活动中的作用有关。生物大脑由物理细胞组成,它们沐浴在连续的化学信号中,其膜内外的离子浓度各不相同。离子浓度的快速波动会引起许多神经元用来传递信息的精确定时的电“尖峰”。这似乎与数字神经网络计算的简单数值大不相同,尤其是这些数值是按顺序、依次计算、从大型语言模型之类的东西中生成响应的方式。
不过,再一次,这些差异可能不像它们看起来那么黑白分明。虽然未来的数字神经网络可能会在追求计算效率时使用更接近尖峰计时的东西,没有理由相信这会使他们可以计算的东西有任何不同。事实上,上面提到的模拟生物神经元行为的 5 到 8 层深度数字神经网络只是通过在大约千分之一秒的时间片中循环运行来实现的。这类似于电影代表动态视觉的方式通过每秒向我们展示 24、30 或 60 个静止图像来处理场景。处理视频的神经网络以相同的方式运行,在下一帧之后分析(或绘制)像素。网络类似于今天的语言和对话模型,具有更动态、更具体的设置,例如具有连续的麦克风输入和扬声器输出,而不是静态的文本墙。 这将带来新的维度,而这些维度仅在文本中是不存在的,例如语音质量、时间和语调。
从技术上讲,电影只不过是一堆静止图像。尽管如此,当这些图像以足够快的速度运行以失去其个体特性并变成连续的、栩栩如生的运动(心理学中称为“视觉暂留”的效果)时,会发生一些特别的事情。在这里,大模型如GPT-3 或 LaMDA需要及时连续运行,这就与神经网络(无论是生物的还是数字的)显示出差异来。
对于大模型而言,时间本身并不存在;只有严格交替的会话回合,就像国际象棋中的动作。在对话回合中,字母或单词随着每次“曲柄的转动”而依次发出。从字面意义上讲,今天的语言模型是为了说出想到的第一件事。因此,我们或许不应该对他们的前后不一的回答感到惊讶——有时相当聪明,有时更像是一个脑残。
当我们进行涉及扩展推理的仔细论证,或写小说,或计算出数学证明时,对我来说,我们采取的任何步骤都从根本上超出了 LaMDA 模型的能力,这一点并不明显。这样的模型有时可以提供创造性的反应,得出相似之处,结合想法,形成结论等等。他们甚至可以制作简短的连贯叙述。然而,更长的弧线需要批判、内部对话、深思熟虑和迭代,就像它们对我们所做的那样。未经过滤的“意识流”话语是不够的;扩展的推理和讲故事必然会随着时间的推移而展开。它们涉及对许多对话轮次的发展和改进。
这一点值得一提,因为我们西方人对个人的关注,作为一个独立的思想源泉而孤立地工作,会使我们看不到任何故事讲述的内在社会和关系本质——即使对于一个单独工作的作家来说也是如此。一个僻静的小屋。
在有自我意识的作家分享他们的工作过程的叙述中,我们可以看到批判性的同理心和心理理论——潜在读者的持续建模,以了解他们在任何特定时刻将知道或不知道什么,什么会令人惊讶,什么会引起情绪反应,他们会对什么感到好奇,什么会让人厌烦。没有这样的建模,就不可能使叙述连贯或保持读者参与。
2017 年布克奖获得者乔治·桑德斯 (George Saunders) 以坦率和自我意识探索了这个话题。他描述说,在他的写作过程的早期,创作了几段“松散、草率的文本”,甚至只是一个句子,与大模型的自发输出不同。我们无时无刻不在产生这种无所事事的想法;它们就像海滩上的贝壳一样常见。如果我们以讲故事为生,我们可能会时不时地把一个放在口袋里,这看起来特别有趣(意思是,这会引起惊喜或其他一些情绪反应)。桑德斯真正应用他的技艺是在随后的迭代过程中,这可能需要数年时间,其驱动力是心理理论和同理心。
对于传统的讲故事的人来说,这一切都不是新闻,当然,对于他们来说,观众是现场的和外部的,反应是即时的。 在这方面成功的讲故事的人——无论是篝火旁的新石器时代萨满还是喜剧俱乐部的站立表演者——都学会了即兴建模并向观众实时演奏,或者在多次表演中反复改进他们的材料,或者两者兼而有之; 这就是为什么观众会回来的原因。 一个成功的隐蔽小屋小说家会吸取类似的教训,但依赖于“内在读者”和修订过程,而不是现场观众的反馈。
他今年8月在俄罗斯Strelka有一个报告(YouTube链接),与这篇文章相关。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢