- 简介这篇文章讲述了《纽约时报》每天发布的“Connections”智力游戏,要求玩家将16个单词分成四组,每组四个单词与一个共同的主题相关联。解决这个谜题需要常见的语言知识(即定义和典型用法),以及在许多情况下需要进行横向或抽象思考。这是因为四个类别的复杂程度不同,最具挑战性的类别通常需要以不寻常的方式思考单词或将其视为更大短语的一部分。作者研究了自动化AI系统玩“Connections”的能力,并探讨了该游戏作为抽象推理自动化基准和衡量数据驱动语言系统编码语义信息的方法。具体来说,作者研究了基于句子嵌入的基准线和现代大型语言模型(LLM)。作者报告了它们在这个任务上的准确性,测量了思维链提示的影响,并讨论了它们的失败模式。总体而言,作者发现“Connections”任务具有挑战性但可行,是未来工作的一个强大测试平台。
-
- 图表
- 解决问题研究人工智能系统在解决Connections游戏中的抽象推理问题的能力,同时探讨该游戏作为衡量数据驱动语言系统语义信息编码能力的基准的潜力。
- 关键思路研究使用句子嵌入基线和现代大型语言模型(LLMs)来解决Connections游戏,并测量链式思维提示的影响和讨论它们的失败模式。
- 其它亮点论文发现Connections游戏具有挑战性但可行,是未来工作的强大测试基准。实验使用了New York Times提供的数据集,结果表明,LLMs表现更好。
- 最近的相关研究包括《The Winograd Schema Challenge》、《The General Language Understanding Evaluation Benchmark》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流