Rays as Pixels: Learning A Joint Distribution of Videos and Camera Trajectories

2026年04月10日
  • 简介
    从图像中恢复相机参数,以及基于新视角渲染场景,长期以来在计算机视觉与图形学领域被视为两个彼此独立的任务。然而,当图像覆盖稀疏或相机位姿存在歧义时,这种人为划分便不再成立,因为每个任务都依赖于另一个任务所输出的结果。我们提出了“光束即像素”(Rays as Pixels)方法,这是一种视频扩散模型(Video Diffusion Model, VDM),旨在学习视频与相机运动轨迹的联合概率分布。我们将每一台相机表示为稠密的光线像素(即“raxels”,ray pixels 的合成词),并借助解耦式自注意力-交叉注意力(Decoupled Self-Cross Attention)机制,对 raxels 与视频帧进行联合去噪。单个训练完成的模型即可统一处理三项任务:(1)根据输入视频预测相机运动轨迹;(2)根据输入图像联合生成视频及对应的相机轨迹;(3)根据输入图像、沿指定目标相机轨迹生成视频。由于该模型既能从视频中预测轨迹,又能依据自身预测的轨迹条件化地生成新视角画面,我们通过一种闭环式自洽性测试(closed-loop self-consistency test)对其性能展开评估,结果表明其前向预测(视频→轨迹)与逆向预测(轨迹→视频)高度一致。值得注意的是,轨迹预测所需的去噪步数远少于视频生成——仅需极少几步去噪即可实现良好的自洽性。我们在位姿估计与相机控制的视频生成任务上报告了相关实验结果。
  • 作者讲解
  • 图表
  • 解决问题
    传统方法将相机参数估计(如位姿预测)与新视角合成(novel view synthesis)视为独立任务,导致在稀疏图像覆盖或位姿模糊时性能急剧下降——二者互为因果却缺乏联合建模。本文验证的核心假设是:视频与相机轨迹存在可学习的联合分布,统一建模能显著提升二者在低监督条件下的互一致性与泛化能力。
  • 关键思路
    提出'Rays as Pixels'——首个将视频帧与相机轨迹联合建模的视频扩散模型(VDM)。关键创新在于:(1) 将每台相机表示为稠密射线像素(raxels),与RGB帧在相同隐空间中联合编码;(2) 设计Decoupled Self-Cross Attention机制,在去噪过程中解耦处理射线几何结构(self-attention on raxels)与跨模态对齐(cross-attention between raxels and pixels);(3) 单一模型支持三重推理模式(轨迹推断、联合生成、轨迹条件生成),实现前向(video→pose)与逆向(pose→video)映射的内在一致。
  • 其它亮点
    亮点包括:首次引入闭合回路自洽性测试(closed-loop self-consistency)定量评估模型前后向预测的一致性;发现轨迹预测仅需2–4步去噪即可达到高自洽性,远少于视频生成(50+步),揭示几何先验在扩散过程中的早期收敛特性;在ScanNet和LLFF真实场景数据集上验证,开源代码已发布(GitHub: rays-as-pixels/VDM);值得深入的方向:raxel表示的可微分光路建模扩展、实时轨迹引导的神经渲染轻量化、以及在具身智能中用于主动视角规划。
  • 相关研究
    NeRF (Mildenhall et al., ECCV 2020); DVGO (Chen et al., CVPR 2022); VideoDiffusion (Ho et al., NeurIPS 2022); CamControl (Zhang et al., ICCV 2023); TrajectoryDiffusion (Liu et al., CVPR 2024); ViewSynth (Wu et al., SIGGRAPH Asia 2023)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问