- 简介从视觉观测中推断物理动作是推动机器智能在现实世界中发展的基本能力。实现这一目标需要大规模、支持开放词汇的视频动作数据集,覆盖广泛领域。本文提出了Action100M,这是一个基于120万部网络教学视频(总时长14.6年)构建的大规模数据集,生成了约一亿个具有开放词汇动作监督和丰富字幕描述的时间定位片段。Action100M由一套完全自动化的流程生成:(i)利用V-JEPA 2嵌入进行分层时间分割;(ii)生成多层次的帧与片段字幕,并组织为“字幕树”(Tree-of-Captions)结构;(iii)通过推理模型(GPT-OSS-120B)在多轮“自我精炼”(Self-Refine)机制下聚合证据,输出结构化标注(包括简要/详细动作、执行者、简要/详细字幕)。在Action100M上训练的VL-JEPA模型展现出持续的数据扩展提升效果,并在多种动作识别基准任务中表现出优异的零样本性能,确立了Action100M作为视频理解与世界建模可扩展研究的新基础。
-
- 图表
- 解决问题论文试图解决视频动作理解领域缺乏大规模、开放词汇、时间定位精确的标注数据集的问题。当前大多数视频数据集受限于封闭词汇、小规模或弱标注,难以支持复杂物理动作的推理和世界建模研究。该问题在开放词汇场景下仍属前沿挑战,具有显著的研究价值。
- 关键思路提出Action100M——一个完全自动化构建的大规模视频动作数据集,利用V-JEPA 2的嵌入进行分层时间分割,生成‘Caption Tree’结构,并通过多轮Self-Refine推理(基于GPT-OSS-120B)聚合生成结构化动作标注。其关键创新在于全自动化流水线无需人工标注,实现开放词汇、细粒度、时空对齐的动作监督。
- 其它亮点Action100M包含约1亿个动作片段,源自120万条网络教学视频(总计14.6年时长),提供多层次动作描述与丰富语义标注。实验显示,在该数据集上训练的VL-JEPA模型在多个动作识别基准上表现出优异的零样本性能,并呈现良好的数据扩展规律。整个流程无需人工干预,具备可扩展性和复制潜力。目前尚未提及代码或数据集是否开源,但其构建方法为未来世界模型和视频理解研究提供了新基础。值得深入探索的方向包括将该框架迁移到非教学类视频、提升低频动作的覆盖密度,以及结合具身智能进行闭环训练。
- 1. 'HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips' (CVPR 2020) 2. 'EPIC-KITCHENS-100: A Large-Scale, Long-Term Multi-Modal Dataset for Fine-Grained Action Recognition' (ICCV 2021) 3. 'Instructional Videos as Open-Domain Procedures' (ACL 2023) 4. 'Scaling Up Visual-and-Language Modeling with Masked Spatio-Temporal Predictors' (NeurIPS 2023) 5. 'V-JEPA: Vision-based Joint-Embedding Predictive Architecture for Data-Efficient Representation Learning' (Meta AI, 2024)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流