Gear-NeRF: Free-Viewpoint Rendering and Tracking with Motion-aware Spatio-Temporal Sampling

简介

神经辐射场（NeRFs）的扩展使其能够模拟动态场景，从而实现几乎逼真的自由视点渲染。虽然这些方法在创造沉浸式体验方面显示出一定的潜力，但存在两个缺点限制了它们的普及：（i）当计算预算有限时，重建质量会显著降低；（ii）缺乏对基础场景的语义理解。为了解决这些问题，我们引入了Gear-NeRF，利用来自强大的图像分割模型的语义信息。我们的方法提供了一种基于学习空间-时间（4D）语义嵌入的原则性方法，基于此，我们引入了齿轮的概念，允许根据其运动范围分层建模场景的动态区域。这种区分允许我们根据其运动尺度调整每个区域的空间-时间采样分辨率，从而实现更逼真的动态新视点合成。同时，我们的方法几乎免费实现了感兴趣对象的自由视点跟踪，这是现有基于NeRF的方法尚未实现的功能。实证研究验证了我们方法的有效性，在多个具有挑战性的数据集上实现了最先进的渲染和跟踪性能。
图表
解决问题

论文旨在解决NeRFs模型在计算资源有限和对场景语义理解不足时降低重建质量的问题，同时实现对感兴趣物体的自由视点跟踪。
关键思路

论文提出Gear-NeRF方法，利用强大的图像分割模型提取语义信息，学习4D语义嵌入，引入“齿轮”概念，根据物体运动范围分层建模，实现不同区域的动态采样分辨率调整，从而实现更加逼真的动态新视角合成。
其它亮点

论文实现了对感兴趣物体的自由视点跟踪，同时在多个数据集上实现了最先进的渲染和跟踪性能。实验使用了多个数据集，并且开源了代码。
相关研究

相关研究包括NeRFs模型及其扩展，以及其他基于语义信息的场景重建和合成方法，如semantic view synthesis、semantic scene representation等。

Gear-NeRF: Free-Viewpoint Rendering and Tracking with Motion-aware Spatio-Temporal Sampling

评论