What does Kiki look like? Cross-modal associations between speech sounds and visual shapes in vision-and-language models

2024年07月25日
  • 简介
    人类在将某些新词匹配到视觉形状时有明显的跨模态偏好。证据表明,这些偏好在我们的语言处理、语言学习和信号-意义映射的起源中起着重要作用。随着视觉和语言(VLM)模型等多模态AI模型的兴起,揭示这些模型编码的视觉语言关联类型以及它们是否与人类表示相一致变得越来越重要。在人类实验的基础上,我们探究并比较了四个VLM模型对于众所周知的人类跨模态偏好——Bouba-Kiki效应的影响。我们没有发现这种效应的确凿证据,但是我们建议,结果可能取决于模型的特征,例如架构设计、模型大小和训练细节。我们的发现有助于探讨Bouba-Kiki效应在人类认知中的起源以及未来与人类跨模态关联相一致的VLM的发展。
  • 图表
  • 解决问题
    本论文旨在探讨视听交叉偏好对语言处理、语言学习和信号-意义映射起源的影响,并通过比较四种视听-语言模型(VLM)来揭示这些模型对于人类跨模态联想的编码方式是否一致。
  • 关键思路
    通过实验探究四种VLM对于人类跨模态偏好效应(bouba-kiki effect)的编码方式,发现结果可能受到模型架构、规模和训练细节等因素的影响。
  • 其它亮点
    论文使用实验探究了VLM对于人类跨模态偏好效应的编码方式,提出了模型架构、规模和训练细节等因素可能对结果产生影响的假设。同时,本论文为VLM领域未来的发展提出了启示,即VLM的发展需要考虑与人类跨模态联想的一致性。
  • 相关研究
    最近的相关研究包括:1.《A Survey of Multimodal Machine Learning》;2.《Multimodal Machine Learning: A Survey and Taxonomy》;3.《Multimodal Machine Learning: A Review of Challenges and Opportunities》。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论