扩散变换器(DiTs)已成为视觉生成领域的主导架构,推动了最先进的图像和视频模型的发展。通过将图像表示为带有位置编码(PEs)的图像块标记,DiTs 结合了 Transformer 的可扩展性与空间及时间上的归纳偏置。在本研究中,我们重新审视了 DiTs 组织视觉内容的方式,发现图像块标记表现出出人意料的独立性:即使位置编码受到扰动,DiTs 仍能生成全局连贯的输出,这表明空间一致性主要由位置编码所主导。受此发现启发,我们提出了“位置编码场”(Positional Encoding Field, PE-Field),将位置编码从二维平面扩展为结构化的三维场。PE-Field 引入了深度感知编码以支持体素级推理,并采用分层编码实现细粒度的子图像块控制,从而使 DiTs 能够直接在三维空间中建模几何结构。我们基于 PE-Field 增强的 DiT 在单图像新视角合成任务上达到了最先进的性能,并能够推广至可控的空间图像编辑应用。