fVDB: A Deep-Learning Framework for Sparse, Large-Scale, and High-Performance Spatial Intelligence

简介

我们提出了fVDB，这是一个针对大规模3D数据的GPU优化深度学习框架。fVDB提供了一整套可微分的基本操作，用于构建常见的3D学习任务的深度学习架构，例如卷积、池化、注意力、射线追踪、网格化等。与现有框架相比，fVDB提供了更多的功能集（基本操作和运算符），而且没有效率损失：我们的运算符的性能与其他范围更窄的框架相匹配或超过。此外，fVDB可以处理比以前的作品更大的数据集和空间分辨率，同时在小输入上提供具有竞争力的内存占用。为了实现这种多功能性和性能的组合，fVDB依赖于一种新颖的VDB索引网格加速结构，配合几个关键创新，包括GPU加速的稀疏网格构建、使用张量核的卷积、使用分层数字微分分析器算法（HDDA）的快速射线追踪内核和不规则张量。我们的框架与PyTorch完全集成，可以与现有管道进行互操作，并且我们在许多代表性任务上展示了其有效性，例如大规模点云分割、高分辨率3D生成建模、无界尺度神经辐射场和大规模点云重建。
解决问题

fVDB框架旨在解决大规模3D数据的深度学习问题，包括卷积、池化、注意力、光线追踪、网格化等任务。同时，该框架可以处理比之前的工作更大的数据集，而且在小型输入上具有竞争性的内存占用。
关键思路

fVDB框架通过使用单一的VDB索引网格加速结构和几个关键创新来实现多功能和高效性的结合，包括GPU加速的稀疏网格构建、使用张量核心的卷积、使用分层数字微分分析算法（HDDA）的快速光线追踪内核和锯齿张量。
其它亮点

该框架提供了一组完整的可微分原语，用于构建深度学习体系结构，具有比已有框架更大的功能集（原语和运算符），而且效率不降低。该框架与PyTorch完全集成，能够与现有流水线进行互操作性，已在大规模点云分割、高分辨率3D生成建模、无界比例神经辐射场和大规模点云重建等任务上展示了其有效性。
相关研究

最近在这个领域中，还有一些相关的研究，如：《PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation》、《Octree-Based Point-Cloud Compression for Indoor Scenes》、《VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection》等。

fVDB: A Deep-Learning Framework for Sparse, Large-Scale, and High-Performance Spatial Intelligence

评论