EgoTwin: Dreaming Body and View in First Person

2025年08月18日
  • 简介
    尽管外视点视频合成已经取得了显著进展,以内视点视角生成视频内容的研究仍相对匮乏。此类生成任务需要对第一人称视角的内容以及由佩戴者身体运动引起的摄像机运动模式进行建模。为了填补这一研究空白,我们提出了一项新的任务——联合内视点视频与人体动作生成,该任务具有两个关键挑战:1)视角对齐——生成视频中的摄像机轨迹必须与从人体动作中提取的头部轨迹精确对齐;2)因果互动——合成的人体动作必须与相邻视频帧之间的视觉动态变化在因果关系上保持一致。为应对这些挑战,我们提出了EgoTwin,这是一种基于扩散变换器架构的视频与动作联合生成框架。具体而言,EgoTwin引入了一种以头部为中心的动作表征方式,将人体动作锚定在头部关节上,并采用一种受控制论启发的交互机制,在注意力操作中显式捕捉视频与动作之间的因果互动关系。为了进行全面评估,我们整理了一个大规模的真实世界同步文本-视频-动作三元组数据集,并设计了新的指标以评估视频与动作之间的一致性。大量实验验证了EgoTwin框架的有效性。
  • 作者讲解·1
  • 图表
  • 解决问题
    论文试图解决以自我为中心(egocentric)视频生成的问题,这包括建模第一视角内容以及由穿戴者身体运动引起的相机运动模式。这是一个相对未被充分探索的问题,与传统的外部视角(exocentric)视频生成不同,需要解决视角对齐和视觉-动作因果关系的挑战。
  • 关键思路
    论文提出了一种联合视频-动作生成框架EgoTwin,基于扩散Transformer架构,引入了以头部为中心的动作表示方式,并结合仿生控制机制,在注意力操作中显式建模视频与动作之间的因果互动关系。这种联合建模思路相比现有研究更具系统性和因果一致性。
  • 其它亮点
    1. 提出了新的以头部为锚点的动作表示方法,增强了视角与动作的一致性。 2. 设计了受控制论启发的交互机制,显式建模视频帧之间的视觉动态与生成动作的因果关系。 3. 构建了一个大规模的真实世界同步文本-视频-动作三元组数据集用于评估。 4. 提出了新的评估指标来衡量视频与动作之间的连贯性和一致性。 5. 实验结果验证了EgoTwin在生成高质量、视角对齐且因果一致的视频-动作内容方面的有效性。
  • 相关研究
    1. “Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans” (CVPR 2021) 2. “EGO HANDS: Approaching Whole-Hand Interaction in Egocentric Vision Using Deep Learning” (CVPR 2020) 3. “HUMANISE: High-fidelity Neural Character Synthesis with Viewpoint Control” (ICCV 2023) 4. “EgoPose3D: Learning 3D Human Pose from Egocentric Vision” (NeurIPS 2022) 5. “Diffusion Models for Egocentric Video Prediction” (ICLR 2023 Workshop)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问