Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos

简介

体积视频代表了视觉媒体的一项革命性进步，使用户能够自由地浏览沉浸式虚拟体验，缩小了数字世界和现实世界之间的差距。然而，现有工作流程中需要大量手动干预来稳定网格序列，并且生成过大的资产，这阻碍了更广泛的采用。在本文中，我们提出了一种新颖的基于高斯的方法，称为DualGS，用于实时和高保真度地播放复杂的人类表演，并具有出色的压缩比。DualGS的关键思想是使用相应的皮肤和关节高斯分别表示运动和外观。这种明确的解缠可以显著减少运动冗余并增强时间上的一致性。我们从初始化DualGS开始，并在第一帧将皮肤高斯锚定到关节高斯上。随后，我们采用一种逐帧的人类表演建模的粗到细的训练策略。它包括一个用于整体运动预测的粗略对准阶段，以及一个用于稳健跟踪和高保真度渲染的精细优化阶段。为了将体积视频无缝地集成到VR环境中，我们使用熵编码有效地压缩运动，使用编解码器压缩和持久化码本来压缩外观。我们的方法实现了高达120倍的压缩比，每帧仅需要约350KB的存储空间。我们通过VR头戴设备上的逼真的自由观看体验来展示我们的表现力，使用户能够沉浸地观看音乐家的表演，并感受到演奏者指尖的节奏。
图表
解决问题

本篇论文旨在解决现有工作流程中对于人体动作序列的稳定化和生成超大型资产的需求，以促进体积视频的更广泛应用。
关键思路

本文提出了一种名为DualGS的高保真、实时播放复杂人体表演的高斯模型方法，通过将运动和外观分别用相应的皮肤和关节高斯表示来减少运动冗余并增强时间上的连贯性。同时，通过熵编码压缩运动和编解码器压缩外观，结合持久性码本实现了高达120倍的压缩比。
其它亮点

本文的方法实现了高保真、实时播放复杂人体表演，并通过VR设备实现了逼真的自由视角体验。此外，该方法只需要约350KB的存储空间，具有较高的压缩比，同时还提供了开源代码。
相关研究

最近的相关研究包括：《Neural Body: Implicit Neural Representations with Structured Latent Codes for Novel View Synthesis of Dynamic Humans》、《Learning to Dress 3D People in Generative Clothing》等。

Robust Dual Gaussian Splatting for Immersive Human-centric Volumetric Videos

评论