
论文链接:https://arxiv.org/abs/2203.11654
代码链接:
https://github.com/waxnkw/IETrans-SGG.pytorch
Scene Graph Generation介绍
Scene Graph Generation(SGG)旨在检测图像中的(主, 谓, 宾)三元组。如下图:

▲ 场景图生成任务介绍
问题
从效果来看,现有的 SGG 模型生成的场景图仅仅能在少数几个头部做出正确预测。以最常用的 50 类谓语分类(Predicate Classification)任务为例子,一个正常训练的 Neural Motif 模型仅仅能在 21 类上面做出正确预测。具体效果:

▲ 拉垮的SGG模型
然而,类似于 on,under 这样的关系过于简单,很难为下游任务提供有用的信息。随便找一个 caption 模型都能达到类似甚至更好的效果。
所以,为什么效果如此拉垮?在本文中中,我们主要讨论了两个原因。第一个是老生常谈的长尾分布问题。在此不多加赘述。第二个则是我们想重点强调的一个问题“标注冲突”。标注人员为了省力,在很多情况下会把 riding on 这样的细粒度关系标注为 on 这样的粗粒度关系。也就是说,一大批细粒度类别都被同时标注为了自己+粗粒度版本。
假设某个关系 A,有 1/2 的数据被标注为了对应的粗粒度类别B。这就意味着,对于 A 这个类别在训练时,会有一半的时间认为 A 是对的,另一半时间认为 B 是对的。这种情况下,即便加了 reweighting,rebalancing 之类的方法,也无法改变模型在冲突的标注上搞优化这一事实。这也就是我们说的属于 SGG 模型的“精神内耗”。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢