Reconstructing Animatable Categories from Videos

解决问题:该论文旨在解决建立可动画三维模型的困难,并探索从单目视频中构建类别三维模型的方法。这是一个新问题,因为以前的研究仅限于刚性类别或单个实例。

关键思路:该论文的解决方案包括三个关键思路:(1)通过优化将骨架专门用于实例,(2)一种潜在空间正则化方法,鼓励跨类别共享结构同时保留实例细节,(3)使用三维背景模型将对象与背景分离。与当前领域的研究相比,该论文的思路有新意。

其他亮点:该论文使用50-100个互联网视频学习了人类、猫和狗的三维模型。该论文的实验设计包括使用不同的数据集和评估指标,但未提供开源代码。该论文的工作值得进一步深入研究。

关于作者:主要作者Gengshan Yang、Chaoyang Wang、N Dinesh Reddy和Deva Ramanan均在美国的机构工作。Gengshan Yang之前的代表作包括“Unsupervised Learning of Latent Physical Properties using Perception-Prediction Networks”;Chaoyang Wang之前的代表作包括“Learning to Learn from Synthetic Data”;N Dinesh Reddy之前的代表作包括“Unsupervised Learning of 3D Structure from Images”;Deva Ramanan之前的代表作包括“Detecting People in Social Videos with a Pose Dissimilarity Measure”。

相关研究:近期的相关研究包括“Learning to Reconstruct 3D Human Pose and Shape via Model-Fitting in the Loop”(Xu Chen等,卡内基梅隆大学)、“Learning to Reconstruct Shapes from Unseen Classes”(Jie Yang等,斯坦福大学)、“Learning to Generate 3D Shapes with Conditional Adversarial Networks”(Qi Fan等,华盛顿大学)。

论文摘要:本文题目为《从视频中重建可动类别》,作者为Gengshan Yang、Chaoyang Wang、N Dinesh Reddy和Deva Ramanan。由于需要进行三维扫描、繁琐的注册和手动绑定,构建可动的三维模型具有挑战性,这些操作很难适用于任意类别。最近,可微分渲染提供了一种从单目视频中获取高质量三维模型的途径,但这些模型仅限于刚性类别或单个实例。本文提出了RAC,该方法可以从单目视频中构建类别三维模型,同时分离实例间的差异和随时间变化的动作。为了解决这个问题,本文介绍了三个关键思想:(1)通过优化将骨架专门应用于实例,(2)一种潜在空间正则化方法,鼓励跨类别共享结构,同时保留实例细节,(3)使用三维背景模型将物体与背景分离。我们展示了可以从50-100个互联网视频中学习到人、猫和狗的三维模型。

内容中包含的图片若涉及版权问题,请及时与我们联系删除