EGTR: Extracting Graph from Transformer for Scene Graph Generation

2024年04月02日
  • 简介
    场景图生成(SGG)是一项具有挑战性的任务,旨在检测对象并预测对象之间的关系。在开发了DETR之后,基于单阶段物体检测器的单阶段SGG模型得到了积极研究。然而,为了预测对象之间的关系,复杂的建模被使用,而在物体检测器的多头自注意力中学习的对象查询之间的固有关系被忽略了。我们提出了一种轻量级单阶段SGG模型,该模型从DETR解码器的多头自注意力层中学习的各种关系中提取关系图。通过充分利用自注意力的副产品,可以使用浅层关系提取头有效地提取关系图。考虑到关系提取任务对于物体检测任务的依赖性,我们提出了一种新颖的关系平滑技术,根据检测到的对象的质量自适应地调整关系标签。通过关系平滑,模型根据连续的课程进行训练,在训练开始时专注于物体检测任务,并随着物体检测性能的逐渐提高而执行多任务学习。此外,我们提出了一种连接性预测任务,作为关系提取的辅助任务,预测对象对之间是否存在关系。我们展示了我们的方法在Visual Genome和Open Image V6数据集上的有效性和效率。我们的代码公开可用于https://github.com/naver-ai/egtr。
  • 图表
  • 解决问题
    论文旨在解决场景图生成中的对象检测和对象关系预测问题,并提出一种轻量级的一阶段场景图生成模型。
  • 关键思路
    论文的关键思路是利用DETR解码器中的多头自注意力层学习到的各种关系,提取关系图,并采用浅层关系提取头来有效地提取关系图。
  • 其它亮点
    论文提出了关系平滑技术,根据检测到的对象的质量自适应地调整关系标签,以便在训练时根据不同的阶段进行连续课程学习。此外,论文还提出了连通性预测任务作为关系提取的辅助任务。
  • 相关研究
    最近在这个领域中,已经有一些基于DETR的场景图生成模型被提出,例如SGGTransformer和VCTree等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论