
像 ChatGPT 这样的人工智能聊天机器人正变得越来越聪明,越来越自然,而且越来越......像人一样。这是有道理的——毕竟,人类是创建支撑 AI 聊天机器人系统的大型语言模型的人。但是,随着这些工具在“推理”和模仿人类语言方面越来越好,它们是否足够聪明,可以通过图灵测试?
几十年来,图灵测试一直被视为机器智能的关键基准。现在,研究人员实际上正在对像 ChatGPT 这样的 LLM 进行测试。如果 ChatGPT 能够通过,这一成就将是人工智能发展的一个重要里程碑。
那么,ChatGPT 能通过图灵测试吗?根据一些研究人员的说法,是的。然而,结果并不完全确定。图灵测试不是简单的通过/失败,这意味着结果并不是真的非黑即白。此外,即使 ChatGPT 可以通过图灵测试,那也可能无法真正告诉我们 LLM 到底有多“人性化”。
让我们来分析一下。
什么是图灵测试?
图灵测试的概念其实很简单。
该测试最初是由英国数学家艾伦·图灵 (Alan Turing) 提出的,他是现代计算机科学之父,也是全世界书心目中的英雄。在 1949 年或 1950 年,他提出了模仿游戏——一种机器智能测试,后来以他的名字命名。图灵测试涉及人类法官与人类和机器进行对话,但不知道哪个是哪个(或者谁是谁,如果你相信 AGI)。如果裁判分不清哪一个是机器,哪个是人类,机器就通过了图灵测试。在研究环境中,该测试由多名评委进行多次。
当然,该测试不一定能确定大型语言模型是否真的和人类一样聪明(或更聪明),只是它是否能够通过人类的测试。
LLM 真的像我们一样思考吗?
当然,大型语言模型没有大脑、意识或世界模型。他们不知道自己的存在。他们也缺乏真实的观点或信仰。
相反,大型语言模型是在海量信息数据集(书籍、互联网文章、文档、成绩单)上进行训练的。当用户输入文本时,AI 模型使用其“推理”来确定输入的最可能的含义和意图。然后,模型生成响应。
在最基本的层面上,LLM 是单词预测引擎。利用大量的训练数据,他们使用词汇表计算响应的第一个 “标记” (通常是一个单词) 的概率。他们重复此过程,直到生成完整的响应。当然,这过于简单化了,但让我们保持简单:LLM 根据概率和统计数据生成对输入的响应。因此,LLM 的回答是基于数学,而不是对世界的实际理解。
所以,不,LLM 实际上并没有从任何意义上思考。
研究对 ChatGPT 和图灵测试有什么看法?

已经有不少研究来确定 ChatGPT 是否通过了图灵测试,其中许多都有积极的发现。这就是为什么一些计算机科学家认为,是的,像 GPT-4 和 GPT-4.5 这样的大型语言模型现在可以通过著名的图灵测试。
大多数测试都集中在 OpenAI 的 GPT-4 模型上,这是大多数 ChatGPT 用户使用的模型。使用该模型,加州大学圣地亚哥分校的一项研究发现,在许多情况下,人类法官无法区分 GPT-4 和人类。在这项研究中,GPT-4 在 54% 的情况下被判断为人类。然而,这仍然落后于真正的人类,后者在 67% 的时间里被判断为人类。
然后,GPT-4.5 发布,加州大学圣地亚哥分校的研究人员再次进行了这项研究。这一次,大型语言模型在 73% 的时间内被识别为人类,性能优于实际人类。测试还发现,Meta 的 LLaMa-3.1-405B 能够通过测试。
加州大学圣地亚哥分校以外的其他研究也给出了 GPT 及格分数。2024 年雷丁大学对 GPT-4 的一项研究让该模型为本科课程的带回家评估创建答案。测试评分员没有被告知这个实验,他们只标记了 33 个条目中的一个。ChatGPT 在其他 32 个条目中获得了高于平均水平的成绩。
那么,这些研究是确定的吗?差一点。一些批评者(有很多批评者)说,这些研究并不像看起来那么令人印象深刻。这就是为什么我们还没有准备好明确地说 ChatGPT 通过了图灵测试。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢