读文章之前,我们先来思考人工智能中一个核心而底层的问题:什么是抽象以及它能够给我们带来什么?
我们这里说的“抽象”是一个认知学上的概念,著名学者 ChatGPT 说:“抽象是指不依赖于具体事物或实例,而是指抽取共同点或基本特征的思维过程。”

在人类智能中,抽象是一个很底层很基本的能力,在某种程度上,可以认为是人类智能的源头之一。因为人在对主客观世界进行观察的过程中,抽象出了无数种概念(concept),对这些概念的模块化(modularity)、组合式(compositionality)的理解,很大程度上刺激了人类语言的诞生,从而最终导致了人类智能、人类文明的产生。
举个例子,万年前的“猴子们”观察了大量的物理对象(object)、实体(entity)以及他们之间的关系(relation)等,逐渐在脑子里面形成了“石头”、“家庭”、“在...之间”、“因果”等概念,经过很长一段时间之后,“猴子们”把这些存在脑海里面的概念用“字”和“词”表示了出来,这些蕴含着抽象概念的字和词经过复杂的、有规则的组合,形成了各种各样的语言,而语言能够表达、演绎、推理一切!就这样,人类智能诞生了~
在认知科学上,七巧板就是这个智能过程的一个简单的重现:七巧板的每个板板就是上面说的一个类似“概念”的存在, 这些代表“概念”的板板模块经过组合,形成了多种多样的形状(shape),而人类如何理解这些形状,又如何理解这些板板,在某种程度上,就是某个人抽象能力的衡量。而抽象能力,就是人类进行推理(reasoning)以及泛化(generalization)的底层能力。
今天介绍的这篇文章荣获了EMNLP 2022 Best Long Paper, 巧妙地借鉴了七巧板这个童年游戏,评估了当前多模态模型的抽象理解能力。可以说,至少在人类级别智能的评测上,推进了一步!
论文标题:
Abstract Visual Reasoning with Tangram Shapes
论文链接:
https://arxiv.org/pdf/2211.16492.pdf
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢