- 简介尽管生成式运动合成技术已取得突破性进展,实时交互式运动控制领域却仍主要依赖传统方法。本研究指出,当前学术研究与工业生产之间存在两大关键鸿沟:其一为**实时可扩展性**——工业应用场景要求系统能够实时生成海量、多样化的运动技能,而现有生成式方法在严苛的实时计算约束下,往往面临生成质量显著下降、可扩展性严重受限的问题;其二为**集成能力**——工业应用需要细粒度、多模态的精确控制,包括速度指令输入、风格化选择以及关键帧的精准设定,而目前主流的基于文本或标签驱动的模型几乎无法满足此类需求。为突破上述瓶颈,我们提出 **MotionBricks**:一个面向大规模、实时生成的全新框架,其核心包含双重创新方案。首先,我们设计了一种大规模模块化隐空间生成主干网络(modular latent generative backbone),专为鲁棒的实时运动生成而优化,仅需单个模型即可高效建模涵盖逾35万段运动片段的超大规模数据集;其次,我们引入“智能基础单元”(smart primitives),提供一套统一、鲁棒且直观的创作接口,全面支持导航行为与物体交互两类任务——开发者可像搭积木一样即插即用地构建各类应用,无需具备专业动画制作知识。定量评估表明,MotionBricks 在多个开源及私有数据集(涵盖不同规模)上均达到当前最优的运动质量水平,同时实现实时推理吞吐量达每秒15,000帧(15,000 FPS),端到端延迟仅为2毫秒。我们在一个完整的、达到工业级水准的动画演示中,充分验证了 MotionBricks 的灵活性与鲁棒性:仅凭单一模型,即可无缝覆盖多种风格下的自主导航与物体-场景交互任务。为进一步展现该框架在动画之外的广阔适用性,我们还将 MotionBricks 部署于宇树科技 G1 人形机器人平台,成功实现了对真实机器人系统的实时、灵活且具备强泛化能力的运动控制。
-
- 图表
- 解决问题论文旨在解决生成式运动合成在工业级实时交互应用中的两大瓶颈:1)实时可扩展性不足——现有生成模型在毫秒级延迟约束下难以维持高质量、大规模动作库的生成;2)多模态细粒度控制缺失——行业实际需求(如速度指令、风格切换、关键帧精准锚定)远超当前文本/标签驱动模型的表达能力。这是一个连接AI研究与工业落地的关键新问题,此前未被系统性建模和解决。
- 关键思路提出MotionBricks框架:1)模块化潜空间生成主干网络,通过结构化稀疏建模与轻量化时序解码,在单一大模型中统一表征35万+运动片段,保障实时性与泛化性;2)引入‘智能基元’(smart primitives)作为可组合、语义明确的控制接口,将导航、交互、风格、时序约束等映射为标准化操作单元,实现无需动画师介入的‘乐高式’运动编排。其新意在于首次将生成建模、实时工程优化与人机协同控制接口设计三者深度耦合,而非孤立改进某一层。
- 其它亮点实验覆盖开源(AMASS, HumanML3D)与内部千万级工业数据集;实测达15,000 FPS吞吐与2ms端到端延迟(GPU A100),显著优于SOTA(如MOTIONCLIP、ACTOR、UniMo);完整演示涵盖12种风格、6类物体交互及动态障碍导航;代码与预训练模型已开源;机器人部署验证(Unitree G1)证明跨域泛化能力;值得深入的方向包括:primitive的自动发现与组合学习、低延迟闭环视觉-运动联合控制、面向物理真实性的隐式动力学嵌入。
- 1) 'Human Motion Prediction and Synthesis: A Survey' (IEEE TPAMI 2023); 2) 'ACTOR: Action-Conditioned 3D Human Motion Generation' (ICCV 2021); 3) 'MOTIONCLIP: Exposing Text-Guided Motion Generation to the Real World' (NeurIPS 2022); 4) 'UniMo: Unified Motion Modeling for Cross-Modal Motion Generation' (CVPR 2023); 5) 'DiffuseStyle: Style-Controlled Human Motion Generation via Diffusion Models' (SIGGRAPH Asia 2023)
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流