- 简介隐喻是我们日常生活中常用的交流工具。虽然文本形式下的隐喻检测和生成已经得到了广泛研究,但其他形式下的隐喻研究还不够深入。最近的研究表明,视觉-语言(VL)模型不能理解表情包和广告中的视觉隐喻。目前还没有进行涉及视频等复杂语言现象的隐喻探究研究。因此,我们在本文中引入了一个新的VL任务,即描述视频中存在的隐喻。为了促进这一新的任务,我们构建并发布了一个手动创建的数据集,其中包括705个视频和2115个人工编写的字幕,以及一个名为平均概念距离(ACD)的新指标,用于自动评估生成的隐喻的创造力。我们还提出了一种新颖的低资源视频隐喻字幕系统:GIT-LLaVA,其在所提出的任务上获得了与SoTA视频语言模型相当的性能。我们对现有的视频语言模型在此任务上进行了全面的分析,并发布了我们的数据集、模型和基准结果,以促进进一步的研究。
- 图表
- 解决问题论文提出了一个新的视觉语言任务,即描述视频中的隐喻,并构建了一个包含705个视频和2115个人工编写的字幕的数据集。此前,这种复杂语言现象在视频中的研究较少。
- 关键思路论文提出了一种新的低资源视频隐喻字幕系统GIT-LLaVA,并引入了一个新的度量标准ACD来自动评估生成的隐喻的创造性。
- 其它亮点论文的亮点包括:构建了一个新的视觉语言任务和相应的数据集;提出了一个新的低资源视频隐喻字幕系统;引入了一个新的度量标准ACD来评估生成的隐喻的创造性;进行了现有视频语言模型的全面分析。
- 最近的相关研究包括:“Visual Metaphor Recognition in Advertisements and Memes”和“Metaphor Detection in Text: A Review”。
沙发等你来抢
去评论
评论
沙发等你来抢