EgoVideo: Exploring Egocentric Foundation Model and Downstream Adaptation

2024年06月26日
  • 简介
    在这份报告中,我们介绍了我们在CVPR 2024年的EgoVis挑战中的解决方案,包括Ego4D挑战中的五个赛道和EPIC-Kitchens挑战中的三个赛道。基于视频-语言双塔模型并利用我们精心组织的自我中心视频数据,我们引入了一种新的基础模型,称为EgoVideo。该模型专门设计以适应自我中心视频的独特特征,并为我们的比赛提交提供了强大的支持。在Ego4D挑战中,我们解决了各种任务,包括自然语言查询、步骤定位、时刻查询、短期物体交互预测和长期动作预测。此外,我们还参加了EPIC-Kitchens挑战,其中包括动作识别、多实例检索和用于动作识别的域自适应赛道。通过将EgoVideo适应于这些不同的任务,我们展示了它在不同的自我中心视频分析场景中的多功能性和有效性,展示了EgoVideo作为自我中心基础模型的强大表示能力。我们的代码库和预训练模型可在 https://github.com/OpenGVLab/EgoVideo 公开获取。
  • 作者讲解
  • 图表
  • 解决问题
    解决问题:本文旨在解决Ego4D和EPIC-Kitchens挑战中的多个任务,包括自然语言查询、步骤定位、瞬间查询、短期对象交互预测和长期动作预测等任务。
  • 关键思路
    关键思路:本文提出了一种新的基础模型EgoVideo,它是专门为处理自我中心视频而设计的。该模型采用了视频-语言双塔模型,并利用了精心组织的自我中心视频数据。通过将EgoVideo适应于不同的任务,本文展示了它的多功能性和有效性,证明了EgoVideo作为自我中心基础模型的强大表示能力。
  • 其它亮点
    其他亮点:本文在Ego4D和EPIC-Kitchens挑战中取得了优异的成绩。实验设计充分考虑了各种情况,使用了多个数据集,并且开源了代码和预训练模型。本文的工作为自我中心视频分析领域的研究提供了有益的参考。
  • 相关研究
    相关研究:在自我中心视频领域,还有一些相关研究,如:Self-Supervised Learning for Ego-Centric Visual Localization and Segmentation;Ego-Pose Estimation and Forecasting as Real-Time PD Control;Learning Egocentric Visual Representations from Paired First and Third Person Videos等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问