Enhancing Video Transformers for Action Understanding with VLM-aided Training

2024年03月24日
  • 简介
    由于Vision Transformers(ViTs)能够提取相关的时空视频嵌入,因此它们目前是视频动作理解中表现最好的模型。然而,它们在领域或数据集上的泛化能力有些有限。相比之下,视觉语言模型(VLMs)展示了出色的泛化性能,但目前无法处理视频。因此,它们无法提取对于动作理解至关重要的时空模式。在本文中,我们提出了四层提示(FTP)框架,利用ViTs和VLMs的互补优势。我们保留了ViTs强大的时空表示能力,但通过将其与VLM输出对齐,改进了视觉编码,使其更加全面和通用。FTP框架添加了四个特征处理器,专注于视频中人类动作的特定方面:动作类别、动作组件、动作描述和上下文信息。VLMs仅在训练期间使用,推理过程中的计算成本很小。我们的方法始终保持最先进的性能。例如,我们在Kinetics-400上实现了93.8%的显着top-1准确度,在Something-Something V2上实现了83.4%的准确度,分别比VideoMAEv2高出2.8%和2.6%。
  • 图表
  • 解决问题
    论文旨在解决视频动作理解模型在不同领域或数据集上泛化能力不足的问题,并提出了一种结合ViTs和VLMs的Four-tiered Prompts(FTP)框架。
  • 关键思路
    FTP框架利用ViTs和VLMs的互补优势,保留ViTs在提取空时视频嵌入方面的强大表现能力,但通过与VLM输出对齐来改进视觉编码,使其更全面和通用。FTP框架添加了四个特征处理器,专注于视频中人类动作的特定方面。
  • 其它亮点
    论文的实验结果表明,FTP框架在Kinetics-400和Something-Something V2数据集上均取得了最新的最高性能,比VideoMAEv2分别高出2.8%和2.6%。此外,VLM仅在训练期间使用,推理过程中的计算成本很小。
  • 相关研究
    最近的相关研究包括:1.《Going deeper into spatio-temporal modeling for activity recognition》;2.《Temporal Shift Module for Efficient Video Understanding》;3.《Non-local Neural Networks》等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论