图片

 

以 ChatGPT 为代表的文本生成的兴起,正促使许多研究人员寻求一个比原始版本更具挑战性的图灵测试。

 

图灵测试解决两个问题:“机器可以思考吗?如果可以,如何证明它?”经典图灵测试针对的是 AI 最棘手的目标之一:如何欺骗不知情的人类?但随着当前语言模型变得越来越复杂,与 AI 如何欺骗人类相比,研究人员开始更关注“如何证明它?”的问题。

 

有观点认为,现代的图灵测试应当在科学的环境中证明语言模型的能力,而不是仅仅看语言模型是否能够愚弄或模仿人类。

 

最近有项研究就重新审视了经典图灵测试,并将图灵在 1950 年所著论文的内容作为 prompt,使用 ChatGPT 生成了一份更可信的论文版本,来评估它的语言理解和生成能力。在使用 AI 写作辅助工具 Grammarly 进行定量评分后发现,ChatGPT 生成的论文得分比图灵原始论文高出 14%。有趣的是,该项研究所发表的论文部分内容是由 GPT-3 生成的。

 

图片

论文地址:

https://arxiv.org/ftp/arxiv/papers/2212/2212.06721.pdf

然而,ChatGPT 的算法是否真的展示了图灵的最初观点,这仍然是个问号。尤其是,当下越来越擅长模仿人类语言的大型语言模型,很容易让人产生它们具有“信念”、能够“推理”的错觉,这会阻碍我们以更可信、更安全的方式部署这些 AI 系统。

内容中包含的图片若涉及版权问题,请及时与我们联系删除