ChatGPT 能通过图灵测试吗

一些研究人员表示，ChatGPT 已经超过了这个门槛。图片来源：Joseph Maldonado / Rene Ramos 的 Mashable Composite

像 ChatGPT 这样的人工智能聊天机器人正变得越来越聪明，越来越自然，而且越来越......像人一样。这是有道理的——毕竟，人类是创建支撑 AI 聊天机器人系统的大型语言模型的人。但是，随着这些工具在“推理”和模仿人类语言方面越来越好，它们是否足够聪明，可以通过图灵测试？

几十年来，图灵测试一直被视为机器智能的关键基准。现在，研究人员实际上正在对像 ChatGPT 这样的 LLM 进行测试。如果 ChatGPT 能够通过，这一成就将是人工智能发展的一个重要里程碑。

那么，ChatGPT 能通过图灵测试吗？根据一些研究人员的说法，是的。然而，结果并不完全确定。图灵测试不是简单的通过/失败，这意味着结果并不是真的非黑即白。此外，即使 ChatGPT 可以通过图灵测试，那也可能无法真正告诉我们 LLM 到底有多“人性化”。

让我们来分析一下。

什么是图灵测试？

图灵测试的概念其实很简单。

该测试最初是由英国数学家艾伦·图灵（Alan Turing）提出的，他是现代计算机科学之父，也是全世界书心目中的英雄。在 1949 年或 1950 年，他提出了模仿游戏——一种机器智能测试，后来以他的名字命名。图灵测试涉及人类法官与人类和机器进行对话，但不知道哪个是哪个（或者谁是谁，如果你相信 AGI）。如果裁判分不清哪一个是机器，哪个是人类，机器就通过了图灵测试。在研究环境中，该测试由多名评委进行多次。

当然，该测试不一定能确定大型语言模型是否真的和人类一样聪明（或更聪明），只是它是否能够通过人类的测试。

LLM 真的像我们一样思考吗？

当然，大型语言模型没有大脑、意识或世界模型。他们不知道自己的存在。他们也缺乏真实的观点或信仰。

相反，大型语言模型是在海量信息数据集（书籍、互联网文章、文档、成绩单）上进行训练的。当用户输入文本时，AI 模型使用其“推理”来确定输入的最可能的含义和意图。然后，模型生成响应。

在最基本的层面上，LLM 是单词预测引擎。利用大量的训练数据，他们使用词汇表计算响应的第一个 “标记” （通常是一个单词）的概率。他们重复此过程，直到生成完整的响应。当然，这过于简单化了，但让我们保持简单：LLM 根据概率和统计数据生成对输入的响应。因此，LLM 的回答是基于数学，而不是对世界的实际理解。

所以，不，LLM 实际上并没有从任何意义上思考。

研究对 ChatGPT 和图灵测试有什么看法？

约瑟夫·马尔多纳多 / Rene Ramos 的 Mashable Composite 图片来源：Mashable

已经有不少研究来确定 ChatGPT 是否通过了图灵测试，其中许多都有积极的发现。这就是为什么一些计算机科学家认为，是的，像 GPT-4 和 GPT-4.5 这样的大型语言模型现在可以通过著名的图灵测试。

大多数测试都集中在 OpenAI 的 GPT-4 模型上，这是大多数 ChatGPT 用户使用的模型。使用该模型，加州大学圣地亚哥分校的一项研究发现，在许多情况下，人类法官无法区分 GPT-4 和人类。在这项研究中，GPT-4 在 54% 的情况下被判断为人类。然而，这仍然落后于真正的人类，后者在 67% 的时间里被判断为人类。

然后，GPT-4.5 发布，加州大学圣地亚哥分校的研究人员再次进行了这项研究。这一次，大型语言模型在 73% 的时间内被识别为人类，性能优于实际人类。测试还发现，Meta 的 LLaMa-3.1-405B 能够通过测试。

加州大学圣地亚哥分校以外的其他研究也给出了 GPT 及格分数。2024 年雷丁大学对 GPT-4 的一项研究让该模型为本科课程的带回家评估创建答案。测试评分员没有被告知这个实验，他们只标记了 33 个条目中的一个。ChatGPT 在其他 32 个条目中获得了高于平均水平的成绩。

那么，这些研究是确定的吗？差一点。一些批评者（有很多批评者）说，这些研究并不像看起来那么令人印象深刻。这就是为什么我们还没有准备好明确地说 ChatGPT 通过了图灵测试。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ChatGPT 能通过图灵测试吗

什么是图灵测试？

LLM 真的像我们一样思考吗？

研究对 ChatGPT 和图灵测试有什么看法？

评论