HandX: Scaling Bimanual Motion and Interaction Generation

2026年03月30日
  • 简介
    人类运动合成技术近年来发展迅速,但逼真手部运动及双手协同交互仍属研究薄弱环节。现有全身运动模型往往难以捕捉驱动灵巧行为所需的细粒度线索,例如手指关节运动、接触时序以及双手间的协调配合;同时,当前公开资源中也缺乏能够精准呈现手指细微动态与协作关系的高保真双手交互序列。为填补这一空白,我们提出HandX——一个涵盖数据、标注与评估的统一基础框架。我们对现有数据集进行了整合与质量筛选,并专门采集了一个全新的动作捕捉数据集,重点覆盖以往被忽视的双手协同交互场景,并包含精细的手指动态信息。为实现可扩展的标注,我们设计了一种解耦式策略:首先提取具有代表性的运动特征(如接触事件、手指屈曲程度等),再借助大语言模型的推理能力,生成与这些特征严格对齐、语义丰富且细粒度的自然语言描述。基于所构建的数据集与标注结果,我们对扩散模型与自回归模型在多种灵活条件输入模式下的性能进行了系统评测。实验表明,所生成的灵巧运动质量优异,且得到我们新提出的、以手部动作为核心的量化评估指标的有力支持。进一步分析还揭示出清晰的规模扩展规律:模型参数量越大、训练数据规模越大且质量越高,所生成的双手协同运动在语义连贯性方面表现越佳。本研究所构建的数据集已全面开源,以支持后续相关研究。
  • 作者讲解
  • 图表
  • 解决问题
    现有全身运动合成模型难以生成真实、精细的手部运动,尤其是双手机交互(bimanual interaction)中的手指关节运动、接触时序、双手协同等细粒度动态行为;高质量、高保真、语义丰富的双手机交互运动数据集严重匮乏。
  • 关键思路
    提出HandX统一基础框架,包含三方面创新:1)数据层面——融合过滤现有数据并新增高精度动捕数据集,聚焦被低估的双手机交互场景;2)标注层面——首创解耦式标注策略:先用信号处理提取可量化的运动特征(如接触事件、指屈角度),再利用大语言模型(LLM)进行语义推理生成与之对齐的细粒度自然语言描述;3)建模层面——构建支持多条件输入(文本/姿态/接触状态)的扩散与自回归基线,并设计手部专用评估指标。
  • 其它亮点
    首次发布开源HandX数据集(含动捕序列、多层级特征标注、LLM生成的语义描述);提出hand-focused metrics(如ContactF1、FlexionConsistency、InterHandSync);实验验证了模型规模、数据规模与质量对双手机运动语义连贯性的正向缩放规律;代码与数据集已全部开源;未来方向包括:LLM-guided motion refinement、神经接触物理建模、跨任务手部表征迁移。
  • 相关研究
    DexMV: A Large-Scale Dataset for Dexterous Manipulation from Multiview Videos (CVPR 2023); GRAB: A Dataset of Whole-Body Human Grasping of Objects (ECCV 2020); InterHand2.6M: A Large-Scale Dataset for Interacting Hands (CVPR 2021); MotionDiffuse: Text-Driven Human Motion Generation (ICLR 2023); HOI4D: A 4D Benchmark for Hand-Object Interaction (NeurIPS 2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问