- 简介人类说话者在描述同一图像中的对象时使用各种不同的表达方式,由于语用约束而产生可行标签的分布,目前视觉与语言大型语言模型(VLLM)能否模仿语言使用的这一关键特征是一个开放的问题。这适用于常见的日常物品,但对于类别标签可能缺乏或模糊的不常见或新颖物品尤其有趣。此外,人类对高度上下文敏感的表达方式,如量词“few”或“most”,表现出明显的产生偏好。在我们的工作中,我们使用先前研究中大多未被充分利用的数据集和资源,评估VLLMs(FROMAGe、BLIP-2、LLaVA)在三个类别(名词、属性和量词)上,人类在分布可行标签方面表现出极大的主观变异性。我们的结果显示VLLMs在捕捉人类命名偏好方面能力参差不齐,所有模型在需要高级推理的任务中(如分配量词)都失败了。
-
- 图表
- 解决问题评估当前视觉与语言大型语言模型(VLLMs)在命名常见或罕见物体时是否能够模拟人类的命名偏好,特别是涉及到数量词等高级推理的任务
- 关键思路使用数据集和资源来评估三种VLLMs在名词、属性和数量词三个类别上的表现,结果表明这些模型在高级推理任务上表现不佳,无法捕捉到人类的命名偏好
- 其它亮点实验使用了之前较少被探索的数据集和资源,结果揭示了VLLMs的局限性,需要进一步改进。但是该领域仍有值得探索的方向,例如如何在VLLMs中加入更多的高级推理能力。
- 最近的相关研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流