People cannot distinguish GPT-4 from a human in a Turing test

简介

我们在一项随机、对照和预先注册的图灵测试中评估了三个系统（ELIZA、GPT-3.5和GPT-4）。人类参与者与人类或AI进行了5分钟的对话，并判断他们的交谈对象是否为人类。GPT-4被判定为人类的比例为54％，优于ELIZA（22％），但落后于真正的人类（67％）。这些结果首次提供了任何人工系统通过交互式2人图灵测试的有力实证。这些结果对于围绕机器智能的辩论具有重要意义，更紧急的是，表明当前AI系统的欺骗可能不会被发现。对参与者策略和推理的分析表明，风格和社交情感因素在通过图灵测试中发挥了比传统智能概念更大的作用。
作者讲解·2
- 讲解视频
- 相关报道(2)
图表
解决问题

论文旨在验证人工智能系统是否能够通过图灵测试，并探讨这一结果对于机器智能和欺骗检测等问题的影响。
关键思路

使用GPT-4系统进行图灵测试，证明该系统能够在一定程度上通过测试，同时发现风格和情感因素对于测试结果的影响较大。
其它亮点

论文设计了随机对照实验，使用了GPT-3.5、GPT-4和ELIZA三个系统进行测试，发现GPT-4通过测试的概率为54%，是三个系统中表现最好的。实验结果提醒人们当前的人工智能系统欺骗的可能性。
相关研究

在图灵测试和人工智能欺骗检测方面，之前已有一些相关研究，例如《机器人的伦理：人工智能、人际关系和社会行为》、《欺骗检测：一个多学科问题》等。

People cannot distinguish GPT-4 from a human in a Turing test

提问交流

提问交流