目前跨模态图像或视频摘要/字幕生成(Image/Video Caption)任务已经得到了很长足的发展,并逐渐内卷化,比如今天出了一篇 Vision Transformer 变体,明天升级到需要百卡训练的大框架。因此,最近的一些文章尝试向外扩展,即不再满足于只在常规的 caption 任务上刷分,而是转于探索各种稀奇古怪,但又有一定实践价值的新任务,比如程序化 caption、多样化 caption、独特化 caption、多视角 caption、常识性 caption、问题控制型 caption。于是本篇文章将整理一下围绕图像/视频字幕化任务的新任务们。

 

Hybrid Reasoning Network for Video-based Commonsense Captioning 常识性字幕化任务。 从普通的语义理解到高级语义推理上的升级,常识字幕任务旨在在给定一个输入的视频,同时生成字幕和完成常识推理(如上图 a 中的三种颜色,去推理出意图 intention、效果 effect、属性 attribute)。同时很显然这三种常识推理都是有作用的,如图 b 是指人类不仅可以受益于视频和事件的标题,而且还可以准确地预测属性和效果,这证明这种语义层面的推理与不同的常识线索是相互作用的。

 

Multi-Perspective Video Captioning 多视角字幕任务。 不同的人可能会用不同的描述对同一视频有不同的看法,这不仅仅是因为视频的不同内容(区域或片段)或者灵活语言,而是观众在解释视频时持有的不同视角。即人类字幕的输出应该同时受到三个因素的影响:视觉方面、语言风格和感知模式。因此作者首先收集了一个 VidOR-MPVC 数据集,3136 个视频,在一个明确的多角度指导方针下,手动注释了超过 41k 的描述。

 

Group-based Distinctive Image Captioning with Memory Attention 独特图像字幕任务。 虽然现有图像字幕生成器可以准确地描述图像,但它们缺乏人类描述图像的独特细节,无法与图像进行区别,即没有独特性。比如上图,简单地提及交通灯而不解释具体的意义(如交通灯的颜色),并不能帮助视障人士决定是否过马路。因此作者提出生成独特性 caption 更有可能突出真正有用的信息。具体来说这种独特性可称为,能够描述图像的独特对象或上下文的能力,以区别于其他语义上相似的图像。

 

A Picture is Worth a Thousand Words: A Unified System for Diverse Captions and Rich Images Generation 多样化字幕任务。 目前都是单个图像-文本对的映射,此处存在两个问题。一句话来说明一幅图片是模糊的。图像过于丰富多样,无法用一定长度的标题来描述。单个图像-文本对不能在图像对象和 caption 语义之间提供准确和细粒度的对齐。因此提出双向图像和文本生成任务,以对齐丰富的图像及其相应的多个不同的标题。如上图,该任务旨在统一实现一张图得到多个句子,多个句子生成更适合的图。

 

State-aware Video Procedural Captioning 程序字幕任务。 不过这个任务也不算特别新的任务,做的人也算比较多的,不过这篇文章也有对数据集进行新的扩展。首先看看这个任务的目的是从教学视频中生成程序性文本,如先打鸡蛋再搅拌这种一步一步步骤化的输出。而这篇文章主打的 motivation 是材料的状态会依次改变,从而产生状态感知的视觉表现(例如,鸡蛋被转化为破裂的,搅拌的,然后是油炸的形式)。因此如果能跟踪操作后的材料状态,可以更好地关联跨模态关系。

 

Question-controlled Text-aware Image Captioning 问题控制字幕新任务。 提出这个新任务的动机是:应该对不同需求的人给出不同的描述,特别是当图像中的文本比较多的时候,通常不需要描述图像中的所有文本。比如上图,如果系统先告诉视障用户一个图像的概述描述,即“一本书”,然后让用户与系统交互,获得关于他们感兴趣的场景文本的更具体细节,如“谁写了书”或“书的标题是什么”。通过这种方式,视障用户可以根据自己的兴趣获得更个性化的文本感知字幕。

 

本文小结

本文整理了关于 image/video caption 的一些变体新任务们,包括程序化 caption、多样化 caption、独特化 caption、多视角 caption、常识性 caption、问题控制型 caption 等等。一个基本的模式都是从实际问题出发,制作一个全新的数据集并提出合理的解决方法,以更贴近真实场景中的需要。这些文章或许也可以给我们带来除了内卷刷分外的新思路,即结合现实去改装一些现有任务并进行扩展,从而实现学术和应用两开花。

内容中包含的图片若涉及版权问题,请及时与我们联系删除