- 简介时序句子定位是一项具有挑战性的任务,旨在定位与语言描述相关的时间跨度。尽管最近基于DETR的模型通过利用多个可学习的时刻查询取得了显著进展,但它们遭受了重叠和冗余提议的困扰,导致预测不准确。我们将这种限制归因于缺乏任务相关指导,使得可学习的查询无法为特定模式提供服务。此外,由于语言描述的可变性和开放性,生成的复杂解空间加剧了优化难度,使得可学习的查询难以自适应地区分彼此。为了解决这个问题,我们提出了一种用于时序句子定位的区域引导Transformer(RGTR),通过多样化时刻查询来消除重叠和冗余预测。RGTR不使用可学习的查询,而是采用一组锚点对作为时刻查询,引入显式的区域指导。每个锚点对负责特定时间区域的时刻预测,这降低了优化难度并确保了最终预测的多样性。此外,我们设计了一个IoU感知的评分头来提高提议质量。广泛的实验证明了RGTR的有效性,在QVHighlights,Charades-STA和TACoS数据集上优于最先进的方法。
- 图表
- 解决问题本论文旨在解决语言描述中的时序句子定位问题,提出了一种新的方法来消除重叠和冗余预测,以提高准确性。
- 关键思路本文提出了一种区域引导的Transformer(RGTR)方法,通过引入显式的区域引导,采用一组锚点对作为时序查询,为每个时序区域分别预测,从而降低优化难度,确保最终预测的多样性。同时,设计了一个IoU感知评分头来提高提案质量。
- 其它亮点论文在QVHighlights、Charades-STA和TACoS数据集上进行了广泛实验,证明了RGTR的有效性,优于现有方法。此外,论文开源了代码,值得进一步研究。
- 在这个领域中,最近的相关研究包括《DETR》、《Query2Label》和《Two-Stream Transformer for Video Moment Localization》等。
沙发等你来抢
去评论
评论
沙发等你来抢