Naming, Describing, and Quantifying Visual Objects in Humans and LLMs

简介

人类说话者在描述同一图像中的对象时使用各种不同的表达方式，由于语用约束而产生可行标签的分布，目前视觉与语言大型语言模型（VLLM）能否模仿语言使用的这一关键特征是一个开放的问题。这适用于常见的日常物品，但对于类别标签可能缺乏或模糊的不常见或新颖物品尤其有趣。此外，人类对高度上下文敏感的表达方式，如量词“few”或“most”，表现出明显的产生偏好。在我们的工作中，我们使用先前研究中大多未被充分利用的数据集和资源，评估VLLMs（FROMAGe、BLIP-2、LLaVA）在三个类别（名词、属性和量词）上，人类在分布可行标签方面表现出极大的主观变异性。我们的结果显示VLLMs在捕捉人类命名偏好方面能力参差不齐，所有模型在需要高级推理的任务中（如分配量词）都失败了。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

评估当前视觉与语言大型语言模型（VLLMs）在命名常见或罕见物体时是否能够模拟人类的命名偏好，特别是涉及到数量词等高级推理的任务
关键思路

使用数据集和资源来评估三种VLLMs在名词、属性和数量词三个类别上的表现，结果表明这些模型在高级推理任务上表现不佳，无法捕捉到人类的命名偏好
其它亮点

实验使用了之前较少被探索的数据集和资源，结果揭示了VLLMs的局限性，需要进一步改进。但是该领域仍有值得探索的方向，例如如何在VLLMs中加入更多的高级推理能力。
相关研究

最近的相关研究包括：《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。

Naming, Describing, and Quantifying Visual Objects in Humans and LLMs

提问交流

提问交流