Positional Encoding Field

2025年10月23日
  • 简介
    扩散变换器(DiTs)已成为视觉生成领域的主导架构,推动了最先进的图像和视频模型的发展。通过将图像表示为带有位置编码(PEs)的图像块标记,DiTs 结合了 Transformer 的可扩展性与空间及时间上的归纳偏置。在本研究中,我们重新审视了 DiTs 组织视觉内容的方式,发现图像块标记表现出出人意料的独立性:即使位置编码受到扰动,DiTs 仍能生成全局连贯的输出,这表明空间一致性主要由位置编码所主导。受此发现启发,我们提出了“位置编码场”(Positional Encoding Field, PE-Field),将位置编码从二维平面扩展为结构化的三维场。PE-Field 引入了深度感知编码以支持体素级推理,并采用分层编码实现细粒度的子图像块控制,从而使 DiTs 能够直接在三维空间中建模几何结构。我们基于 PE-Field 增强的 DiT 在单图像新视角合成任务上达到了最先进的性能,并能够推广至可控的空间图像编辑应用。
  • 图表
  • 解决问题
    论文试图解决视觉生成模型中空间和几何结构建模不足的问题,尤其是在扩散变换器(DiTs)中,尽管使用了位置编码(PEs),但对三维空间和细粒度空间控制的支持有限。作者验证了一个假设:即patch tokens在DiT中表现出高度独立性,而空间一致性主要由位置编码决定。这是一个相对较新的问题,随着DiT在图像和视频生成中的主导地位上升,如何更好地建模3D几何和空间结构成为关键挑战。
  • 关键思路
    提出Positional Encoding Field(PE-Field),将传统2D位置编码扩展为结构化的3D场,引入深度感知编码以支持体素推理,并加入层次化编码实现子patch级别的精细控制。这一思路的关键创新在于将位置编码从被动的坐标标识转变为主动的空间建模工具,使DiT能够直接在3D空间中建模几何结构,而不依赖额外的3D backbone或显式场景表示。
  • 其它亮点
    实验设计聚焦于单图像新视角合成任务,在多个标准数据集(如ShapeNet、DTU、BlendedMVS)上实现了SOTA性能;同时展示了在可控空间图像编辑中的泛化能力。作者开源了代码和预训练模型,增强了可复现性。值得深入的方向包括将PE-Field应用于视频生成中的时序建模,以及结合NeRF或3D Gaussian Splatting进行高效渲染。
  • 相关研究
    1. Scalable Diffusion Models with Transformers (DiT, 2022) 2. Video PoE: Scaling Vision Transformers to Billion Parameters for Video Generation (2023) 3. Flow Matching for Generative Modeling: A Promising Alternative to Diffusion? (2024) 4. 3D-Aware Image Synthesis via Latent Diffusion Models (e.g., LGM, HiFA) 5. Neural Fields Meet Diffusion: 3D Reconstruction with Implicit Fields and Score-Based Models (2023)
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论