Large Language Models Pass the Turing Test

2025年03月31日
  • 简介
    我们对四个系统(ELIZA、GPT-4o、LLaMa-3.1-405B 和 GPT-4.5)进行了两项针对独立人群的随机化、对照且预先注册的图灵测试评估。参与者与另一位人类参与者和其中一个系统同时进行五分钟的对话,然后判断他们认为哪个对话对象是人类。当被提示采用类人的人格时,GPT-4.5 被判定为人类的比例高达 73%,显著高于参与者选择真实人类的比例。同样在该提示下,LLaMa-3.1 被判定为人类的比例为 56%,这一比例并未显著高于或低于与其对比的真实人类的表现;而基线模型(ELIZA 和 GPT-4o)的胜率显著低于随机水平(分别为 23% 和 21%)。这些结果首次提供了任何人工系统通过标准三方图灵测试的实证证据。研究结果对关于大型语言模型(LLMs)所展现的智能类型以及这些系统可能带来的社会和经济影响的讨论具有重要意义。
  • 图表
  • 解决问题
    该论文试图验证大型语言模型是否能够在标准的三党图灵测试中被误认为是人类,这是一个经典问题的新应用,特别是在多系统对比和严格实验设计的情况下。
  • 关键思路
    论文通过随机化、控制和预注册的图灵测试,评估了四个不同系统的性能(ELIZA、GPT-4o、LLaMa-3.1-405B 和 GPT-4.5),并引入了明确的‘人类化’提示来观察其对模型表现的影响。相比以往研究,本研究首次提供了实证证据,证明某些模型(如 GPT-4.5)可以显著超过人类基准,这为理解 LLM 的智能水平提供了新视角。
  • 其它亮点
    实验设计严谨,包括独立人群、同时与人类和模型互动以及时间限制;数据表明 GPT-4.5 在图灵测试中的表现超越了真实人类,而 LLaMa-3.1 达到接近人类的水平。此外,基线模型(如 ELIZA 和 GPT-4o)的表现远低于随机水平,凸显了现代 LLM 的进步。虽然没有提及代码开源,但实验方法透明,值得进一步研究如何优化模型的人类化行为及其潜在社会影响。
  • 相关研究
    近期相关研究包括:1) 'Evaluating Large Language Models Trained on Code' 探讨了代码生成能力;2) 'The Alignment Problem: The Case of Language Models' 分析了对齐挑战;3) 'Human-Like Behavior in AI Systems: A Survey' 综述了人类化行为的研究进展;4) 'Turing Tests in the Age of Big Data' 讨论了大数据时代下图灵测试的变化。这些工作共同构成了对 LLM 能力和局限性的全面理解。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问