Helping Hands: An Object-Aware Ego-Centric Video Recognition Model

解决问题:本篇论文旨在提出一种基于对象感知的解码器,以改善自我中心视频的时空表示的性能。其关键思路是通过训练模型来预测手部位置、物体位置和对象的语义标签,从而提高训练过程中的对象感知能力。该模型仅需要RGB帧作为输入,在推理时能够跟踪和定位对象。本论文的主要目的是提高自我中心视频的性能,通过视觉-文本定位的方式来改进模型。

关键思路:本论文的关键思路是提出了一种基于对象感知的解码器,通过任务驱动模型来预测手部位置、物体位置和对象的语义标签,并在推理时能够跟踪和定位对象,从而提高训练过程中的对象感知能力。相比当前领域的研究,本篇论文的思路在于提高了模型的对象感知能力,通过视觉-文本定位的方式来改进模型,从而提高了自我中心视频的性能。

其他亮点:本论文的亮点在于:(1)通过零样本测试,证明了模型的强迁移性,在多个下游视频-文本检索和分类基准测试中表现良好;(2)通过使用学到的表示作为长期视频理解任务(例如Ego4D中的情节记忆)的输入,证明了该模型的性能优于现有技术水平,即使与使用更大批量的网络进行训练的网络相比也是如此;(3)通过使用噪声图像级检测作为伪标签进行训练,证明了模型学习使用视频一致性提供更好的边界框,并将单词与相关文本描述进行关联。

关于作者:本文的主要作者是Chuhan Zhang、Ankush Gupta和Andrew Zisserman。他们分别来自牛津大学计算机视觉组和微软研究院。Chuhan Zhang和Andrew Zisserman曾在ImageNet数据集上进行了深度学习的研究,提出了一种新的网络结构,并在该数据集上取得了最好的结果。Ankush Gupta曾经在微软研究院从事计算机视觉和机器学习的研究,并在几个顶级会议上发表了多篇论文。

相关研究:近期其他相关的研究包括:(1)"Learning Object Motion Patterns for Autonomously Moving Cameras",作者为Feng Wang、Xiaohang Zhan和Xiaowei Zhou,来自华中科技大学;(2)"Ego-Pose Estimation and Forecasting as Real-Time PD Control",作者为Andreas Geiger和Jens Behley,来自马普学会。

论文摘要:我们引入了一种对象感知的解码器,以提高自我中心视频的时空表示的性能。关键思想是在训练期间通过使用成对标题来要求模型预测手的位置、物体的位置和物体的语义标签,从而增强对象感知。在推理时,模型只需要RGB帧作为输入,就能够跟踪和定位对象(尽管它没有明确地为此进行训练)。我们通过以下方式展示了我们的模型学习到的对象感知表示的性能:(i)评估它在许多下游视频文本检索和分类基准测试中的强转移能力,即通过零样本测试;(ii)通过将学习到的表示作为长期视频理解任务(例如Ego4D中的情节记忆)的输入。在所有情况下,性能都优于现有技术水平,甚至比使用更大批量大小进行训练的网络性能更好。我们还展示了通过使用噪声图像级别检测作为伪标签进行训练,模型学习使用视频一致性提供更好的边界框,并将单词与相关文本描述中的对象联系起来。总体而言,我们展示了该模型可以作为自我中心视频模型的替代品,通过视觉-文本基础实现性能的提升。

内容中包含的图片若涉及版权问题,请及时与我们联系删除