我们对四个系统(ELIZA、GPT-4o、LLaMa-3.1-405B 和 GPT-4.5)进行了两项针对独立人群的随机化、对照且预先注册的图灵测试评估。参与者与另一位人类参与者和其中一个系统同时进行五分钟的对话,然后判断他们认为哪个对话对象是人类。当被提示采用类人的人格时,GPT-4.5 被判定为人类的比例高达 73%,显著高于参与者选择真实人类的比例。同样在该提示下,LLaMa-3.1 被判定为人类的比例为 56%,这一比例并未显著高于或低于与其对比的真实人类的表现;而基线模型(ELIZA 和 GPT-4o)的胜率显著低于随机水平(分别为 23% 和 21%)。这些结果首次提供了任何人工系统通过标准三方图灵测试的实证证据。研究结果对关于大型语言模型(LLMs)所展现的智能类型以及这些系统可能带来的社会和经济影响的讨论具有重要意义。