Rays as Pixels: Learning A Joint Distribution of Videos and Camera Trajectories

向作者提问

NEW

简介

从图像中恢复相机参数，以及基于新视角渲染场景，长期以来在计算机视觉与图形学领域被视为两个彼此独立的任务。然而，当图像覆盖稀疏或相机位姿存在歧义时，这种人为划分便不再成立，因为每个任务都依赖于另一个任务所输出的结果。我们提出了“光束即像素”（Rays as Pixels）方法，这是一种视频扩散模型（Video Diffusion Model, VDM），旨在学习视频与相机运动轨迹的联合概率分布。我们将每一台相机表示为稠密的光线像素（即“raxels”，ray pixels 的合成词），并借助解耦式自注意力-交叉注意力（Decoupled Self-Cross Attention）机制，对 raxels 与视频帧进行联合去噪。单个训练完成的模型即可统一处理三项任务：（1）根据输入视频预测相机运动轨迹；（2）根据输入图像联合生成视频及对应的相机轨迹；（3）根据输入图像、沿指定目标相机轨迹生成视频。由于该模型既能从视频中预测轨迹，又能依据自身预测的轨迹条件化地生成新视角画面，我们通过一种闭环式自洽性测试（closed-loop self-consistency test）对其性能展开评估，结果表明其前向预测（视频→轨迹）与逆向预测（轨迹→视频）高度一致。值得注意的是，轨迹预测所需的去噪步数远少于视频生成——仅需极少几步去噪即可实现良好的自洽性。我们在位姿估计与相机控制的视频生成任务上报告了相关实验结果。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

传统方法将相机参数估计（如位姿预测）与新视角合成（novel view synthesis）视为独立任务，导致在稀疏图像覆盖或位姿模糊时性能急剧下降——二者互为因果却缺乏联合建模。本文验证的核心假设是：视频与相机轨迹存在可学习的联合分布，统一建模能显著提升二者在低监督条件下的互一致性与泛化能力。
关键思路

提出'Rays as Pixels'——首个将视频帧与相机轨迹联合建模的视频扩散模型（VDM）。关键创新在于：(1) 将每台相机表示为稠密射线像素（raxels），与RGB帧在相同隐空间中联合编码；(2) 设计Decoupled Self-Cross Attention机制，在去噪过程中解耦处理射线几何结构（self-attention on raxels）与跨模态对齐（cross-attention between raxels and pixels）；(3) 单一模型支持三重推理模式（轨迹推断、联合生成、轨迹条件生成），实现前向（video→pose）与逆向（pose→video）映射的内在一致。
其它亮点

亮点包括：首次引入闭合回路自洽性测试（closed-loop self-consistency）定量评估模型前后向预测的一致性；发现轨迹预测仅需2–4步去噪即可达到高自洽性，远少于视频生成（50+步），揭示几何先验在扩散过程中的早期收敛特性；在ScanNet和LLFF真实场景数据集上验证，开源代码已发布（GitHub: rays-as-pixels/VDM）；值得深入的方向：raxel表示的可微分光路建模扩展、实时轨迹引导的神经渲染轻量化、以及在具身智能中用于主动视角规划。
相关研究

NeRF (Mildenhall et al., ECCV 2020); DVGO (Chen et al., CVPR 2022); VideoDiffusion (Ho et al., NeurIPS 2022); CamControl (Zhang et al., ICCV 2023); TrajectoryDiffusion (Liu et al., CVPR 2024); ViewSynth (Wu et al., SIGGRAPH Asia 2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问