EGTR: Extracting Graph from Transformer for Scene Graph Generation

2024年04月02日
  • 简介
    场景图生成(SGG)是一项具有挑战性的任务,涉及到检测物体并预测物体之间的关系。在开发出DETR之后,基于单阶段物体检测器的单阶段SGG模型得到了积极研究。然而,复杂的建模被用于预测物体之间的关系,并且物体检测器的多头自注意力中学习到的物体查询之间的内在关系被忽略了。我们提出了一个轻量级的单阶段SGG模型,从DETR解码器的多头自注意力层中学习到的各种关系中提取关系图。通过充分利用自注意力的副产品,可以使用浅层关系提取头有效地提取关系图。考虑到关系提取任务对物体检测任务的依赖性,我们提出了一种新颖的关系平滑技术,根据检测到的物体的质量自适应地调整关系标签。通过关系平滑,模型按照连续课程进行训练,开始时侧重于物体检测任务,并随着物体检测性能的逐渐提高而执行多任务学习。此外,我们提出了一个连接预测任务,作为关系提取的辅助任务,预测物体对之间是否存在关系。我们展示了我们的方法在Visual Genome和Open Image V6数据集上的有效性和效率。我们的代码公开在https://github.com/naver-ai/egtr。
  • 图表
  • 解决问题
    本文旨在解决场景图生成中的对象检测和关系预测问题。同时,该论文提出了一种轻量级的一阶段场景图生成模型,利用DETR解码器中多头自注意力层学习到的关系信息提取关系图,并通过一种新颖的关系平滑技术,根据检测到的对象质量自适应地调整关系标签,实现了连续的课程学习。
  • 关键思路
    本文提出了一种轻量级的一阶段场景图生成模型,利用DETR解码器中多头自注意力层学习到的关系信息提取关系图,并通过一种新颖的关系平滑技术,根据检测到的对象质量自适应地调整关系标签,实现了连续的课程学习。
  • 其它亮点
    本文提出的方法在Visual Genome和Open Image V6数据集上进行了实验,证明了其有效性和高效性。此外,该论文还提出了一种连通性预测任务,作为关系抽取的辅助任务。论文提供了开源代码,可供其他研究者使用。该论文的关系平滑技术和连通性预测任务值得进一步研究。
  • 相关研究
    最近在场景图生成领域的相关研究包括:1. Graph R-CNN: 2-Stage Framework for Tractable General-Purpose Scene Graph Generation(论文标题);2. Improving Visual Relationship Detection using Semantic Modeling(论文标题);3. Scene Graph Generation from Objects, Phrases and Region Captions(论文标题)。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论