- 简介我们介绍了一个数据采集系统和一个名为HO-Cap的新数据集,可用于研究视频中手部和物体的3D重建和姿态跟踪。该采集系统使用多个RGB-D相机和HoloLens头戴式设备进行数据收集,避免使用昂贵的3D扫描仪或动作捕捉系统。我们提出了一种半自动方法来获取收集视频中手部和物体的形状和姿态注释,与手动标记相比,这显著减少了所需的注释时间。利用这个系统,我们采集了一个人类使用物体执行不同任务的视频数据集,以及简单的拿起和移交物体的手部动作,这可以用作具身化人工智能和机器人操作研究的人类演示。我们的数据采集设置和注释框架可以被社区用来重建物体和人手的3D形状,并跟踪它们在视频中的姿态。
- 图表
- 解决问题本文介绍了一个名为HO-Cap的数据捕获系统和数据集,用于研究视频中手部和物体的3D重建和姿态跟踪。该系统使用多个RGB-D相机和HoloLens头戴式显示器进行数据收集,避免了使用昂贵的3D扫描仪或运动捕捉系统。作者提出了一种半自动化的方法来获得收集视频中手部和物体形状和姿态的注释,相比于手动标注,大大减少了所需的标注时间。作者通过该系统捕获了一个人类使用物体执行不同任务的视频数据集,以及简单的拿取和移交物体的数据集,这可以用作具有身体感知能力的AI和机器人操作研究的人类演示。该数据捕获设置和注释框架可以被社区用于重建物体和人手的3D形状并跟踪其在视频中的姿态。
- 关键思路本文提出了一种使用多个RGB-D相机和HoloLens头戴式显示器的数据捕获系统,以及一种半自动化的注释方法,用于从收集的视频中获取手部和物体的姿态和形状注释。这种方法相比于手动标注大大减少了标注时间。作者捕获了一个包含人类使用物体执行不同任务以及简单拿取和移交物体的视频数据集,这可以用于具有身体感知能力的AI和机器人操作研究。
- 其它亮点本文的亮点包括使用多个RGB-D相机和HoloLens头戴式显示器的数据捕获系统、半自动化的注释方法以及捕获的用于人类演示的视频数据集。作者还提供了开源代码和数据集,以便社区进行进一步研究。
- 最近的相关研究包括使用深度学习方法进行手部姿态估计和物体重建的研究,如“DeepPrior++: Improving Fast and Accurate 3D Hand Pose Estimation”和“Learning to Reconstruct 3D Human Pose and Shape via Model-fitting in the Loop”。此外,还有一些研究专注于使用虚拟现实技术进行手部姿态估计和物体重建,如“HandVR: A Virtual Reality System for Hand Pose and Shape Estimation”。
沙发等你来抢
去评论
评论
沙发等你来抢