近年来,深度学习技术在通用目标检测领域取得了显著的突破,并催生了许多场景理解任务。场景图因其强大的语义表达能力和在场景理解中的应用而成为研究的热点。场景图生成(Scene Graph Generation, SGG)是指将图像自动映射为语义结构的场景图,需要正确标注被检测对象及其关系。虽然这是一个具有挑战性的任务,但社区已经提出了许多SGG方法,并取得了良好的效果。在本文中,我们提供了一个全面的综述,在这一领域的最新成就带来了深度学习技术。本文综述了138个具有代表性的研究成果,并从特征提取和融合的角度系统总结了现有的基于图像的SGG方法。我们试图将现有的视觉关系检测方法进行连接和系统化,以全面的方式总结和解释SGG的机制和策略。最后,我们对目前存在的问题和未来的研究方向进行了深入的讨论,完成了本次综述。这一综述将有助于读者更好地了解目前的研究现状和思路。

论文链接:

https://arxiv.org/abs/2201.00443

内容中包含的图片若涉及版权问题,请及时与我们联系删除