- 简介还没有。我们提出了SPACE,这是一个系统评估前沿模型中空间认知的基准。我们的基准建立在几十年的认知科学研究基础上。它评估了大规模地图制作能力,这种能力在有机体穿越物理环境时发挥作用,以及关于物体形状和布局的较小规模的推理,以及空间注意力和记忆等认知基础设施。对于许多任务,我们通过文本和图像实例化并行演示,使我们能够对大型语言模型和大型多模型模型进行基准测试。结果表明,当代前沿模型在动物认知的许多经典测试中表现不佳,接近于偶然水平,这表明它们的空间智能还不如动物。
- 图表
- 解决问题论文试图评估前沿模型在空间认知方面的表现,并比较它们与动物的表现水平。这是一个新问题。
- 关键思路论文提出了一个基于几十年的认知科学研究的空间认知基准,涵盖了大规模地图能力、物体形状和布局的小规模推理,以及空间注意力和记忆等认知基础设施。同时,论文通过文本和图像的并行呈现来评估大型语言模型和大型多模型的表现。
- 其它亮点论文的实验设计非常严谨,使用了多个数据集,并公开了代码。结果表明,当前前沿模型在许多经典的动物认知测试中表现不佳,与动物的表现相比仍有很大差距。
- 最近的相关研究包括《GQA: A New Dataset for Real-World Visual Reasoning and Compositional Question Answering》和《Cognitive Mapping and Planning for Visual Navigation》等论文。
沙发等你来抢
去评论
评论
沙发等你来抢