DevBench: A multimodal developmental benchmark for language learning

2024年06月14日
  • 简介
    最近的建模工作试图通过构建在更少数据上训练的模型,特别是多模态自然数据,来理解模型和人类数据效率之间的差距。然而,这些模型通常在成人水平的基准上进行评估,测试的语言能力范围有限,并且没有直接与行为数据进行比较。我们引入了DevBench,一个多模态基准,包括七个语言评估任务,涵盖词汇、句法和语义能力领域,包括儿童和成人的行为数据。我们评估了一组视觉语言模型在这些任务上的表现,不仅比较模型和人类的准确性,还比较它们的响应模式。在任务中,模型在接近人类响应模式方面表现出差异,表现更好的模型也更接近人类行为响应。我们还研究了OpenCLIP在训练过程中的发展轨迹,发现更大的训练结果更接近成人的响应模式。因此,DevBench提供了一个基准,用于比较模型和人类语言发展。这些比较突出了模型和人类语言学习过程分歧的方式,为改进语言模型提供了思路。
  • 图表
  • 解决问题
    比较视觉-语言模型和儿童的学习轨迹的相似性和差异性,以及如何提高模型的语言学习能力。
  • 关键思路
    引入一个多模态基准测试DevBench,包括七个语言评估任务,涵盖词汇、句法和语义能力,与儿童和成人的行为数据进行比较,评估视觉-语言模型在这些任务上的表现,比较模型和人类的响应模式,揭示模型和人类语言学习过程的差异,提供改进语言模型的切入点。
  • 其它亮点
    论文使用了一个新的多模态基准测试DevBench,包括七个语言评估任务,涵盖词汇、句法和语义能力,与儿童和成人的行为数据进行比较,评估视觉-语言模型在这些任务上的表现,并比较模型和人类的响应模式。论文还研究了OpenCLIP在训练过程中的发展轨迹,发现更多的训练可以使其更接近成人的响应模式。
  • 相关研究
    最近的相关研究包括:《Vision-Language Navigation with Self-Supervised Auxiliary Reasoning Tasks》、《Multimodal Pretraining for Dense Video Captioning》、《Unicoder-VL: A Universal Encoder for Vision and Language by Cross-modal Pre-training》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论