ECCV 2022 | 基于数据转移的细粒度场景图生成

论文链接：https://arxiv.org/abs/2203.11654

代码链接：

https://github.com/waxnkw/IETrans-SGG.pytorch

Scene Graph Generation介绍

Scene Graph Generation（SGG）旨在检测图像中的（主, 谓, 宾）三元组。如下图：

▲ 场景图生成任务介绍

问题

从效果来看，现有的 SGG 模型生成的场景图仅仅能在少数几个头部做出正确预测。以最常用的 50 类谓语分类（Predicate Classification）任务为例子，一个正常训练的 Neural Motif 模型仅仅能在 21 类上面做出正确预测。具体效果：

▲ 拉垮的SGG模型

然而，类似于 on，under 这样的关系过于简单，很难为下游任务提供有用的信息。随便找一个 caption 模型都能达到类似甚至更好的效果。

所以，为什么效果如此拉垮？在本文中中，我们主要讨论了两个原因。第一个是老生常谈的长尾分布问题。在此不多加赘述。第二个则是我们想重点强调的一个问题“标注冲突”。标注人员为了省力，在很多情况下会把 riding on 这样的细粒度关系标注为 on 这样的粗粒度关系。也就是说，一大批细粒度类别都被同时标注为了自己+粗粒度版本。

假设某个关系 A，有 1/2 的数据被标注为了对应的粗粒度类别B。这就意味着，对于 A 这个类别在训练时，会有一半的时间认为 A 是对的，另一半时间认为 B 是对的。这种情况下，即便加了 reweighting，rebalancing 之类的方法，也无法改变模型在冲突的标注上搞优化这一事实。这也就是我们说的属于 SGG 模型的“精神内耗”。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

ECCV 2022 | 基于数据转移的细粒度场景图生成

Scene Graph Generation介绍

问题

评论列表

评论