SViTT-Ego: A Sparse Video-Text Transformer for Egocentric Video

2024年06月13日
  • 简介
    预训练自我中心视觉-语言模型已成为提高自我中心视频-文本任务下游效果的关键。这些自我中心基础模型通常使用Transformer结构。然而,在预训练期间,这些模型的内存占用可能相当大。因此,我们预训练了SViTT-Ego,这是第一个集成边缘和节点稀疏化的稀疏自我中心视频-文本Transformer模型。我们在EgoClip数据集上进行预训练,并采用了自我中心友好的EgoNCE目标,而不是常用的InfoNCE。值得注意的是,SViTT-Ego在EgoMCQ(视频内)准确性方面比LAVILA large获得了+2.8%的增益,而且除了标准图像增强外,没有使用其他数据增强技术,但可以在内存受限设备上进行预训练。
  • 作者讲解
  • 图表
  • 解决问题
    SViTT-Ego论文试图解决的问题是如何在内存受限的设备上预训练稀疏的自我中心视觉语言模型,以提高下游自我中心视频文本任务的性能。
  • 关键思路
    SViTT-Ego论文提出了一种稀疏的自我中心视频文本Transformer模型,采用边缘和节点稀疏化技术,使用EgoNCE目标函数进行预训练,从而在内存受限的设备上实现预训练。
  • 其它亮点
    SViTT-Ego论文的亮点包括:1.提出了一种稀疏的自我中心视频文本Transformer模型;2.使用EgoNCE目标函数进行预训练;3.在EgoClip数据集上进行了实验,获得了比LAVILA large更高的准确率;4.无需使用额外的数据增强技术,可以在内存受限的设备上进行预训练。
  • 相关研究
    近期在这个领域中的其他相关研究包括:1.《Learning to Learn from Narrated Demonstrations for Vision-Language Tasks》;2.《EgoCap: Egocentric Markerless Motion Capture with Two Fisheye Cameras》;3.《Temporal Cycle-Consistency Learning》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问