【论文标题】Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation 【作者团队】Gengcong Yang, Jingyi Zhang, Yong Zhang, Baoyuan Wu, Yujiu Yang 【发表时间】2021/03/09 【机构】清华大学深圳研究生院、电子科技大学、腾讯 AI 实验室、香港中文大学(深圳)、深圳大数据研究院 【论文链接】https://arxiv.org/pdf/2103.05271.pdf 【推荐理由】 本文出自清华大学深圳研究生院、电子科技大学、腾讯 AI 实验室、香港中文大学(深圳)、深圳大数据研究院联合团队,作者针对现有场景图生成任务中存在的视觉关系歧义性问题,提出了一种新的即插即用的概率不确定性建模模块,带来了特征表示的随机性,能够实现多样的准确预测。 为了生成「准确」的场景图,几乎所有现有的方法都以确定的方式预测成对的关系。然而,我们认为视觉关系往往具有语义上的歧义。具体而言,在语言学知识的启发下,我们将歧义分为三种类型:同义词歧义、上下位歧义和多视角歧义。上述歧义性自然而然地导致了隐式多标签问题,激发了对各种预测结果的需求。 在这项工作中,作者提出了一种新的即插即用的概率不确定性建模(PUM)模块。它将每个联合区域建模为高斯分布,其方差度量相应视觉内容的不确定性。与传统的确定性方法相比,这种不确定性建模带来了特征表示的随机性,能够实现不同的预测。 此外,PUM 还设法覆盖更细粒度的关系,从而缓解了偏向于频繁出现的关系的问题。在大规模的 Visual Genome 基准上的大量实验表明,将 PUM 与新提出的 ResCAGCN 相结合可以实现最先进的性能。

图 1:现有场景图生成的框架。

现有的场景图生成框架包含以下步骤:(1)使用 Faster-RCNN 获取物体候选框(2)融合全局特征从而获取物体标签,物体特征,联合区域特征(3)在上述步骤的基础上,将每个联合区域建模为一个确定性向量,从而预测关系。在本文中,我们将模块替换为了 PUM(4)每个联合区域被表征为一个概率分布。

内容中包含的图片若涉及版权问题,请及时与我们联系删除