$R^2$-Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding

2024年03月31日
  • 简介
    视频时间定位(VTG)是一个细粒度视频理解问题,旨在在给定自然语言查询的未剪辑视频中定位相关片段。大多数现有的VTG模型都建立在基于帧的最终层CLIP特征之上,辅以额外的时间骨干(例如SlowFast),具有复杂的时间推理机制。在这项工作中,我们声称CLIP本身已经展现出了进行细粒度空间-时间建模的巨大潜力,因为每个层次在不同的粒度级别下提供了不同但有用的信息。在此基础上,我们提出了反向递归调整($R^2$-Tuning),这是一个参数和内存高效的转移学习框架,用于视频时间定位。我们的方法学习了一个轻量级的$R^2$块,仅包含总参数的1.5%,用于执行渐进式空间-时间建模。$R^2$块从CLIP的最后一层开始,逐层聚合来自先前层次的空间特征,然后在给定查询的条件下细化时间相关性,从而实现粗到细的方案。$R^2$-Tuning在六个公共基准测试集(即QVHighlights、Charades-STA、Ego4D-NLQ、TACoS、YouTube Highlights和TVSum)上实现了三个VTG任务(即时刻检索、亮点检测和视频摘要)的最新性能,即使没有额外的骨干,也证明了所提出方案的重要性和有效性。我们的代码可在https://github.com/yeliudev/R2-Tuning上获得。
  • 图表
  • 解决问题
    本文旨在解决视频时序定位(VTG)问题,即在未剪辑的视频中,给定自然语言查询,确定相关片段的问题。该问题已经存在,但本文提出了一种新的解决方案。
  • 关键思路
    本文提出了一种名为Reversed Recurrent Tuning($R^2$-Tuning)的参数和内存高效的迁移学习框架,用于视频时序定位。该方法学习一个轻量级的$R^2$块,仅占总参数的1.5%,用于进行逐步的时空建模。从CLIP的最后一层开始,$R^2$块循环地聚合来自较早层的空间特征,然后在给定查询的条件下细化时间相关性,从而实现从粗到细的方案。
  • 其它亮点
    本文提出的$R^2$-Tuning方法在不使用额外的backbone的情况下,在六个公共基准测试集(即QVHighlights,Charades-STA,Ego4D-NLQ,TACoS,YouTube Highlights和TVSum)上实现了三个VTG任务(即时刻检索,亮点检测和视频摘要)的最新性能,证明了该方案的重要性和有效性。此外,本文提供了开源代码。
  • 相关研究
    在这个领域中,最近的相关研究包括:1)使用SlowFast等额外的时间骨干的现有VTG模型;2)使用不同的模型结构和损失函数来解决VTG问题,如TSP-Net和CMIN等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论