- 简介这段摘要讲的是场景图生成(SGG)任务,包括在图像中检测物体并预测表示物体之间关系的谓词。然而,在SGG基准数据集中,每个主语-宾语对都注释了一个谓词,即使一个谓词可能具有不同的语义(即语义多样性),现有的SGG模型也被训练为预测每个对应的唯一谓词。这反过来导致SGG模型忽视了谓词中可能存在的语义多样性,从而导致预测结果存在偏差。本文提出了一种新颖的模型无关的语义多样性感知原型学习(DPL)框架,能够基于对谓词语义多样性的理解实现无偏预测。具体而言,DPL学习了语义空间中每个谓词所覆盖的区域,以区分单个谓词可以表示的各种不同语义。广泛的实验表明,我们提出的模型无关的DPL框架在现有的SGG模型上带来了显著的性能提升,并有效地理解了谓词的语义多样性。
- 图表
- 解决问题论文旨在解决场景图生成任务中存在的语义多样性问题。在现有的场景图数据集中,每个主语-宾语对只被注释了一个谓词,然而一个谓词可能具有不同的语义多样性。这导致现有的场景图模型忽略了谓词中可能存在的语义多样性,从而导致预测结果存在偏差。
- 关键思路论文提出了一种新的模型无关的语义多样性感知原型学习(DPL)框架,通过学习谓词语义空间中的区域来区分单个谓词可能代表的不同语义,从而实现无偏预测。相比于现有的场景图模型,DPL能够更好地理解谓词中的语义多样性。
- 其它亮点论文的实验表明,DPL框架能够显著提高现有场景图模型的性能,并有效地理解谓词的语义多样性。论文使用了多个数据集进行实验,并公开了代码。值得进一步研究的工作包括如何进一步提高DPL框架的性能。
- 在这个领域的相关研究包括:1. Visual Genome:Connecting Language and Vision Using Crowdsourced Dense Image Annotations;2. Neural Motifs: Scene Graph Parsing with Global Context;3. Graph R-CNN for Scene Graph Generation。
沙发等你来抢
去评论
评论
沙发等你来抢