Put Myself in Your Shoes: Lifting the Egocentric Perspective from Exocentric Videos

2024年03月11日
  • 简介
    我们研究了外心视角到自心视角的交叉视角转换,旨在基于从第三人称(外心)视角捕捉演员的视频录制生成演员的第一人称(自心)视角。为此,我们提出了一个名为Exo2Ego的生成框架,将转换过程分解为两个阶段:高级结构转换和基于扩散的像素级幻觉。高级结构转换明确地鼓励外心和自心视角之间的对应关系,而基于扩散的像素级幻觉则结合手部布局先验,以增强生成的自心视角的保真度。为了为未来在这一领域的进一步发展铺平道路,我们策划了一个全面的外心到自心交叉视角转换基准。它由三个公共数据集H2O,Aria Pilot和Assembly101中的多样化的同步自心-外心桌面活动视频对组成。实验结果验证了Exo2Ego能够提供具有清晰的手部操作细节的照片般逼真的视频结果,并在合成质量和对新动作的泛化能力方面优于几个基线。
  • 作者讲解
  • 图表
  • 解决问题
    本论文的问题在于如何从第三人称视角的视频中生成第一人称视角的视频,同时保留手部操作细节。
  • 关键思路
    本文提出了一种名为Exo2Ego的生成框架,将转换过程分为两个阶段:高级结构转换和基于扩散的像素级幻觉。前者通过显式地促进外向视角和内向视角之间的对应关系来实现,后者则利用手部布局先验来提高生成结果的保真度。
  • 其它亮点
    本文提供了一个全面的exo-to-ego跨视角转换基准,包括三个公共数据集中的多样化的同步ego-exo桌面活动视频对。实验结果表明,Exo2Ego生成的视频结果逼真,手部操作细节清晰,比多个基准测试表现更好,且具有对新动作的泛化能力。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:《First Person Hand Action Benchmark with RGB-D Videos and 3D Hand Pose Annotations》、《First-Person Hand Action Benchmark with Stereo Videos》等。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问