PixelGaussian: Generalizable 3D Gaussian Reconstruction from Arbitrary Views

向作者提问

NEW

简介

我们提出了PixelGaussian，这是一种高效的前馈框架，用于从任意视角学习可泛化的3D高斯重建。现有的大多数方法依赖于均匀的像素级高斯表示，这些方法为每个视角学习固定数量的3D高斯分布，无法很好地泛化到更多输入视角。相比之下，我们的PixelGaussian能够根据几何复杂度动态调整高斯分布和数量，从而实现更高效的表示，并显著提高重建质量。具体而言，我们引入了一种级联高斯适配器（Cascade Gaussian Adapter，CGA），该适配器根据关键点评分器识别的局部几何复杂度来调整高斯分布。CGA利用上下文感知超网络中的变形注意力机制，引导高斯剪枝和分裂，确保在复杂区域中准确表示，同时减少冗余。此外，我们设计了一个基于Transformer的迭代高斯细化模块，通过直接的图像-高斯交互来优化高斯表示。随着输入视角的增加，我们的PixelGaussian可以有效减少高斯冗余。我们在大规模的ACID和RealEstate10K数据集上进行了广泛的实验，结果表明，我们的方法在各种视角数量下均具有良好的泛化性能，并达到了最先进的效果。代码：https://github.com/Barrybarry-Smith/PixelGaussian。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

该论文试图解决从任意视角学习可泛化的3D高斯重建的问题。现有方法通常依赖于统一的像素级高斯表示，这些方法为每个视图学习固定数量的3D高斯，无法很好地泛化到更多输入视图。这是一个新的问题，尤其是在处理多视角输入时的高效性和泛化能力。
关键思路

论文的关键思路是通过动态调整高斯分布和数量来适应几何复杂性，从而实现更高效的表示和显著的重建质量提升。具体来说，引入了一个级联高斯适配器（Cascade Gaussian Adapter, CGA），利用变形注意力机制在上下文感知超网络中指导高斯剪枝和分裂，确保在复杂区域中的准确表示，同时减少冗余。此外，设计了一个基于Transformer的迭代高斯细化模块，通过直接的图像-高斯交互来优化高斯表示。
其它亮点

论文的其他亮点包括：1) 实验设计全面，使用了大规模的ACID和RealEstate10K数据集，验证了方法的有效性和泛化能力；2) 提供了开源代码，方便复现和进一步研究；3) 随着输入视图的增加，PixelGaussian能够有效减少高斯冗余，提高效率；4) 在多个评价指标上达到了当前的最先进水平。
相关研究

最近在这个领域中，还有一些相关的研究，例如：1) "NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis"，提出了一种基于神经辐射场的场景表示方法；2) "Occupancy Networks: Learning 3D Reconstruction in Function Space"，通过占用网络学习3D重建；3) "DeepVoxels: Learning Persistent 3D Feature Embeddings"，提出了持久3D特征嵌入的方法；4) "Convolutional Occupancy Networks"，通过卷积占用网络改进3D重建的精度和效率。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问