Creating a Lens of Chinese Culture: A Multimodal Dataset for Chinese Pun Rebus Art Understanding

2024年06月14日
  • 简介
    大型视觉语言模型(VLMs)已经展示出在理解日常内容方面的非凡能力。然而,它们在艺术领域,特别是在文化丰富的艺术形式方面的表现仍然较少探索。作为人类智慧和创造力的珍珠,艺术蕴含着复杂的文化叙事和象征意义。在本文中,我们提供了一个多模态的数据集——《谐音绘画数据集》,它深深扎根于中国传统文化的艺术理解。我们专注于三个主要任务:识别显著的视觉元素,将元素与它们的象征意义匹配,以及传达信息的解释。我们的评估表明,最先进的VLMs在这些任务上面临困难,经常提供有偏见和虚幻的解释,并且通过上下文学习的改进有限。通过发布《谐音绘画数据集》,我们旨在促进开发能够更好地理解和解释特定文化内容的VLMs,促进超越基于英语语料库的更大的包容性。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在探索大型视觉语言模型在理解文化丰富的艺术形式方面的表现,并提供一个基于中国传统文化的多模态数据集,以促进VLMs在理解和解释文化特定内容方面的发展。
  • 关键思路
    论文提出了Pun Rebus艺术数据集,专注于三个主要任务:识别显著的视觉元素,将元素与其象征意义匹配,以及解释传达的信息。实验结果表明,目前的VLMs在这些任务中表现不佳,经常提供有偏见和虚构的解释,并且在上下文学习方面的提高有限。
  • 其它亮点
    值得关注的亮点包括:提供一个基于中国传统文化的多模态数据集,以促进VLMs在理解和解释文化特定内容方面的发展;实验结果表明,当前的VLMs在理解艺术形式方面表现不佳;论文提出了新的解决方案,可以用于更好地理解和解释文化特定内容。
  • 相关研究
    最近的相关研究包括:《VisualBERT: A Simple and Performant Baseline for Vision and Language》、《ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问