- 简介尽管现有的最先进的大型语言模型(LLMs),包括视觉语言模型(VLMs)和单模态语言模型(ULMs)取得了显著的成功,但它们仍然无法理解精确的语义。例如,使用不同的词汇组合表达的语义等效句子会引发不同的表示。这种差异的程度及其对编码的语义的影响尚不是非常清楚。本文介绍了SUGARCREPE++数据集,以分析VLMs和ULMs对词汇和语义变化的敏感性。SUGARCREPE++数据集中的每个样本都包括一张图像和相应的三个标题:一对语义等效但词汇不同的正标题和一个负标题。这对语言模型构成了一个三路语义(不)等价问题。我们全面评估了在架构、预训练目标和数据集方面不同的VLMs和ULMs,以评估SUGARCREPE++数据集的性能。实验结果突出了VLMs在区分词汇和语义变化方面的困难,特别是在物体属性和空间关系方面。虽然具有更大的预训练数据集、模型大小和多个预训练目标的VLMs在SUGARCREPE++上取得了更好的性能,但仍有很大的改进空间。我们表明,所有在组合性数据集上表现更好的模型不一定在SUGARCREPE++上表现同样出色,这表明仅仅依靠组合性可能不足以理解语义和词汇的变化。鉴于SUGARCREPE++数据集所针对的属性的重要性,它成为视觉语言社区的新挑战。
-
- 图表
- 解决问题本文旨在分析大型语言模型(LLMs)对于词汇和语义变化的敏感性,特别是在物体属性和空间关系方面。为此,引入了SUGARCREPE++数据集,其中包含图像和相应的三元组标题。作者试图通过这个数据集来评估不同架构、预训练目标和数据集的VLMs和ULMs的表现。
- 关键思路本文的关键思路是使用SUGARCREPE++数据集来评估VLMs和ULMs的表现,以探究它们对于词汇和语义变化的敏感性,并提出了改进的可能性。
- 其它亮点本文使用SUGARCREPE++数据集来评估VLMs和ULMs的表现,发现它们在词汇和语义变化的敏感性方面存在困难。实验结果表明,具有更大的预训练数据集、模型大小和多个预训练目标的VLMs表现更好。然而,这些模型在理解语义和词汇变化方面仍有改进的空间。本文提出的SUGARCREPE++数据集是一个新的挑战,需要更多的研究。
- 最近的相关研究包括《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流