综述｜一文掌握多模态领域的可控文本生成

本文作者姚林丽、杨丁一，文章转自知乎

在多模态领域，图片/ 视频描述生成是一类经典的任务，致力于让机器像人一样能用自然语言去描述视觉内容。然而，所谓“一图胜千言”，我们可以有无数种方式/角度去描述同一张图片，而视频比图片多一个时域维度，包含的视觉信息就更加丰富和复杂。由此，衍生出了一个新的任务分支“可控的图像/视频描述生成”，即给定一种控制信号，更有目的地去描述图片或者视频，更好满足实际需求。

今天，我们将梳理和控制信号相关的描述生成（Captioning）工作，具体分为文本内容控制和风格控制两大方面。

作者简介

姚林丽，硕士三年级，来自中国人民大学信息学院AI.M3实验室，研究方向为视觉-文本理解与生成。

杨丁一，博士二年级，来自中国人民大学信息学院AI.M3实验室，研究方向为风格化跨模态文本生成。

1. 文本内容的控制

1.1控制信号是什么？

1) 可控的图像描述生成

2) 可控的视频描述生成

1.2 具体工作介绍

1.3 内容控制小结

2. 文本风格的控制

2.1 研究现状

2.2 无监督风格化图像描述相关工作

1）显式风格-内容分离

2）隐式风格-内容分离

3）数据集增强

2.3 小结

1. 文本内容的控制

首先，我们梳理文本内容层面的控制，即控制信号会影响生成文本的结构和内容。任务输入视觉模态（图片/视频）和控制信号，输出一句描述视觉内容且和控制信号一致的文本。

我们先按照年份简要整理相关论文，回答已有工作中“控制信号是什么？”这个问题，然后再详细介绍一篇相关工作，具体分析可控文本生成工作中的重点和难点。

1.1控制信号是什么？

近几年（2019年以来），可控图片描述生成（Controllable Image Captioning）和可控视频描述生成（Controllable Video Captioning）主题下出现了一系列的工作，它们提出了多种多样的控制信号，包括Part-Of-Speech, Length，Regions，Object words, Abstract Scene Graphs, Semantic Roles，Questions, Mouse track等等。下面我们将结合论文出现的年份，整理这些论文使用的控制信号和提出动机。

1）可控的图像描述生成

[CVPR 2019] Fast, Diverse and Accurate Image Captioning Guided By Part-of-Speech

控制信号：句子中单词的词性Part-of-speech

动机：

Image captioning是一个模糊的任务，一张图片有很多种合适的caption。为了解决这种模棱两可性，可以使用beam search来生成多句caption，但是它的计算复杂度比较高。

本文先对图片生成一种有意义的summary（part-of-speech），然后再指导生成caption。

[ECCV 2020] Length-Controllable Image Captioning

控制信号：

句子长度，句子越短内容越简洁、句子越长包含的细节（形容词词组）越多

动机：

句子的长度能反映一个句子中包含的信息量，可以通过控制句子的长度来控制生成比较粗糙的或者精细的句子。

优势是 controllability & diversity & decode efficiency (用了non-autoregressive模型)

[CVPR 2019] Show, control and tell: A framework for generating controllable and grounded captions.

控制信号：视觉特征 a sequence or set of image regions （多个image regions）如下图所示

动机：

一图胜千言，根据不同的目标和上下文，可以有无数种方式去描绘一张图片。提出了一个新的框架，输入一系列图片区域，能够实现grounding and controllability。

[CVPR 2019] Intention oriented image captions with guiding objects

控制信号：

a human-concerned object（单词形式），生成的句子中要包含这个object。

动机

现有的image captioning模型不能保证用户关注的object一定出现在生成句子中，尤其是图片中不起眼的object或者是训练集中没出现过的novel object。

可以生成更 comprehensive 和 diverse 的描述，在描述 novel objects方面更有优势。

[COLING 2020] Language-driven region pointer advancement for controllable image captioning.

控制信号: region pointer，即指定图中几个regions + 每个region出现的次序

[CVPR 2020] Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

控制信号：Abstract Scene Graph（ASG）抽象的语义图

ASG中一共包含三种抽象节点：物体（object），属性（attribute），关系（relationship）。可以自动地/人工指定一个ASG作为控制信号，例如下图中，指定该图对应的ASG中有两个object节点、一个relation节点、左边object又有两个attribute节点、右边object有一个attribute节点。生成的文本需要满足ASG的结构去具体描述该图片。

更多内容请参考知乎专栏

内容中包含的图片若涉及版权问题，请及时与我们联系删除

综述｜一文掌握多模态领域的可控文本生成

1. 文本内容的控制

1.1控制信号是什么？

评论列表

评论