本文作者姚林丽、杨丁一,文章转自知乎

在多模态领域,图片/ 视频描述生成是一类经典的任务,致力于让机器像人一样能用自然语言去描述视觉内容。然而,所谓“一图胜千言”,我们可以有无数种方式/角度去描述同一张图片,而视频比图片多一个时域维度,包含的视觉信息就更加丰富和复杂。由此,衍生出了一个新的任务分支“可控的图像/视频描述生成”,即给定一种控制信号,更有目的地去描述图片或者视频,更好满足实际需求。

今天,我们将梳理和控制信号相关的描述生成(Captioning)工作,具体分为文本内容控制和风格控制两大方面。

作者简介

姚林丽,硕士三年级,来自中国人民大学信息学院AI.M3实验室,研究方向为视觉-文本理解与生成。

杨丁一,博士二年级,来自中国人民大学信息学院AI.M3实验室,研究方向为风格化跨模态文本生成。

目录

1. 文本内容的控制

1.1控制信号是什么?

1) 可控的图像描述生成

2) 可控的视频描述生成

1.2 具体工作介绍

1.3 内容控制小结

2. 文本风格的控制

2.1 研究现状

2.2 无监督风格化图像描述相关工作

1) 显式风格-内容分离

2)隐式风格-内容分离

3)数据集增强

2.3 小结

1. 文本内容的控制

首先,我们梳理文本内容层面的控制,即控制信号会影响生成文本的结构和内容。任务输入视觉模态(图片/视频)和控制信号,输出一句描述视觉内容且和控制信号一致的文本。

我们先按照年份简要整理相关论文,回答已有工作中“控制信号是什么?”这个问题,然后再详细介绍一篇相关工作,具体分析可控文本生成工作中的重点和难点。

1.1控制信号是什么?

近几年(2019年以来),可控图片描述生成(Controllable Image Captioning)和可控视频描述生成(Controllable Video Captioning)主题下出现了一系列的工作,它们提出了多种多样的控制信号,包括Part-Of-Speech, Length,Regions,Object words, Abstract Scene Graphs, Semantic Roles,Questions, Mouse track等等。下面我们将结合论文出现的年份,整理这些论文使用的控制信号和提出动机。

1)可控的图像描述生成

[CVPR 2019] Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech

控制信号:句子中单词的词性Part-of-speech

动机:

Image captioning是一个模糊的任务,一张图片有很多种合适的caption。为了解决这种模棱两可性,可以使用beam search来生成多句caption,但是它的计算复杂度比较高。

本文先对图片生成一种有意义的summary(part-of-speech),然后再指导生成caption。

[ECCV 2020] Length-Controllable Image Captioning

控制信号:

句子长度,句子越短内容越简洁、句子越长包含的细节(形容词词组)越多

动机:

句子的长度能反映一个句子中包含的信息量,可以通过控制句子的长度来控制生成比较粗糙的或者精细的句子。

优势是 controllability & diversity & decode efficiency (用了non-autoregressive模型)

[CVPR 2019] Show, control and tell: A framework for generating controllable and grounded captions.

控制信号:视觉特征 a sequence or set of image regions (多个image regions)如下图所示

动机:

一图胜千言,根据不同的目标和上下文,可以有无数种方式去描绘一张图片。提出了一个新的框架,输入一系列图片区域,能够实现grounding and controllability。

[CVPR 2019] Intention oriented image captions with guiding objects

控制信号:

a human-concerned object(单词形式),生成的句子中要包含这个object。

动机

现有的image captioning模型不能保证用户关注的object一定出现在生成句子中,尤其是图片中不起眼的object或者是训练集中没出现过的novel object。

可以生成更 comprehensive 和 diverse 的描述,在描述 novel objects方面更有优势。

[COLING 2020] Language-driven region pointer advancement for controllable image captioning.

控制信号: region pointer,即指定图中几个regions + 每个region出现的次序

[CVPR 2020] Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

控制信号:Abstract Scene Graph(ASG) 抽象的语义图

ASG中一共包含三种抽象节点:物体(object),属性(attribute),关系(relationship)。可以自动地/人工指定一个ASG作为控制信号,例如下图中,指定该图对应的ASG中有两个object节点、一个relation节点、左边object又有两个attribute节点、右边object有一个attribute节点。生成的文本需要满足ASG的结构去具体描述该图片。

更多内容请参考知乎专栏