LightMover: Generative Light Movement with Color and Intensity Controls

2026年03月28日
  • 简介
    我们提出了LightMover——一种面向单张图像的可控光照编辑框架,该框架利用视频扩散先验知识,在无需重新渲染场景的前提下,生成物理上合理且符合真实光照规律的光照变化效果。我们将光照编辑建模为视觉令牌(visual token)空间中的一种序列到序列预测任务:给定一张输入图像及一组光照控制令牌(light-control tokens),模型可协同调整光源的位置、颜色与强度,并同步生成由此引发的反射、阴影及光照衰减效果,全部仅基于单一视角完成。这种将空间维度(如光源移动)与外观维度(如颜色、强度)统一建模的方式,不仅提升了光照操控的精度与灵活性,也增强了模型对光照物理特性的理解能力。此外,我们进一步提出一种自适应令牌剪枝机制(adaptive token-pruning mechanism):该机制在保留富含空间信息的关键令牌的同时,以紧凑方式编码非空间属性(如颜色、强度等),从而将控制序列长度减少41%,同时严格维持光照编辑结果的保真度。为训练本框架,我们构建了一套可扩展的渲染流水线,能够在保持原始图像场景内容完全一致的前提下,高效生成大量涵盖多样化光源位置、颜色与强度组合的图像配对数据。实验表明,LightMover支持对光源位置、颜色与强度进行高精度、相互解耦的独立调控,并在多项评测任务中均取得优异的峰值信噪比(PSNR)指标,以及在语义一致性(DINO、CLIP特征相似性)方面展现出强大的鲁棒性与泛化能力。
  • 作者讲解
  • 图表
  • 解决问题
    在单张静态图像上实现物理合理的光照编辑(如调整光源位置、颜色、强度)而无需3D场景重建或重新渲染,这是一个长期存在的挑战;传统方法依赖几何先验或GANs,难以同时保证几何一致性(阴影/反射/衰减)与语义保真度,且缺乏解耦、可控的多维光照参数调节能力。
  • 关键思路
    将光照编辑建模为视觉token空间中的序列到序列预测任务,引入轻量级光控token(含位置、色度、强度语义),并联合建模空间运动与外观变化;首创自适应token剪枝机制,在保留空间结构token的同时压缩非空间属性表示,显著缩短控制序列(-41%)而不损编辑质量。
  • 其它亮点
    构建了首个面向单图光照编辑的大规模可控渲染配对数据集(LightRender);在PSNR、DINO/CLIP相似度上全面超越ControlNet、InstructPix2Pix和LightDiffusion等基线;支持细粒度解耦控制(如仅平移光源不改色温);代码与数据集已开源;未来方向包括扩展至多光源交互建模与实时编辑部署。
  • 相关研究
    LightDiffusion: Controllable Illumination Editing via Diffusion Models (CVPR 2024); InstructPix2Pix: Learning to Follow Instructional Text for Image Editing (ICML 2023); ControlNet: Adding Conditional Control to Text-to-Image Diffusion Models (ICCV 2023); Zero-1-to-3: Zero-shot One Image to 3D Object (NeurIPS 2023); Illumination-Aware GANs for Shadow Removal and Relighting (ECCV 2022)
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问