Naming, Describing, and Quantifying Visual Objects in Humans and LLMs

2024年03月11日
  • 简介
    人类说话者在描述同一图像中的对象时使用各种不同的表达方式,由于语用约束而产生可行标签的分布,目前视觉与语言大型语言模型(VLLM)能否模仿语言使用的这一关键特征是一个开放的问题。这适用于常见的日常物品,但对于类别标签可能缺乏或模糊的不常见或新颖物品尤其有趣。此外,人类对高度上下文敏感的表达方式,如量词“few”或“most”,表现出明显的产生偏好。在我们的工作中,我们使用先前研究中大多未被充分利用的数据集和资源,评估VLLMs(FROMAGe、BLIP-2、LLaVA)在三个类别(名词、属性和量词)上,人类在分布可行标签方面表现出极大的主观变异性。我们的结果显示VLLMs在捕捉人类命名偏好方面能力参差不齐,所有模型在需要高级推理的任务中(如分配量词)都失败了。
  • 作者讲解
  • 图表
  • 解决问题
    评估当前视觉与语言大型语言模型(VLLMs)在命名常见或罕见物体时是否能够模拟人类的命名偏好,特别是涉及到数量词等高级推理的任务
  • 关键思路
    使用数据集和资源来评估三种VLLMs在名词、属性和数量词三个类别上的表现,结果表明这些模型在高级推理任务上表现不佳,无法捕捉到人类的命名偏好
  • 其它亮点
    实验使用了之前较少被探索的数据集和资源,结果揭示了VLLMs的局限性,需要进一步改进。但是该领域仍有值得探索的方向,例如如何在VLLMs中加入更多的高级推理能力。
  • 相关研究
    最近的相关研究包括:《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《VisualBERT: A Simple and Performant Baseline for Vision and Language》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问