- 简介每天由《纽约时报》发布的“Connections”智力游戏要求玩家将16个单词分成四组,每组四个单词与一个共同主题相关。解决这个谜题需要常见的语言知识(即定义和典型用法),以及在许多情况下需要横向或抽象思维。这是因为四个类别按复杂程度升级,最具挑战性的类别通常需要以不同寻常的方式或作为更大短语的一部分来思考单词。我们研究了自动化AI系统玩“Connections”的能力,并探讨了该游戏作为抽象推理自动化基准和衡量数据驱动语言系统编码的语义信息的潜力。特别是,我们研究了句子嵌入基线和现代大型语言模型(LLMs)。我们报告了它们在任务中的准确性,测量了思维链提示的影响,并讨论了它们的失败模式。总体而言,我们发现“Connections”任务具有挑战性但可行,并且是未来工作的一个强大测试平台。
- 图表
- 解决问题探索自然语言处理中抽象推理的自动化评估方法,通过 Connections puzzle 任务来衡量现有 AI 系统的语义信息编码能力。
- 关键思路使用句子嵌入和大型语言模型(LLM)来解决 Connections puzzle 任务,并探究链式思维提示的影响和失败模式。
- 其它亮点论文发现 Connections puzzle 任务具有挑战性,但是通过使用大型语言模型可以得到比较好的结果。实验使用了公开数据集,并提供了开源代码。该任务可以作为一个衡量自然语言处理系统中抽象推理能力的基准测试。
- 近期的相关研究包括使用类似的语言游戏来评估自然语言处理系统的抽象推理能力,如 Winograd Schema Challenge 和 CommitmentBank。
沙发等你来抢
去评论
评论
沙发等你来抢