LightMover: Generative Light Movement with Color and Intensity Controls

向作者提问

NEW

简介

我们提出了LightMover——一种面向单张图像的可控光照编辑框架，该框架利用视频扩散先验知识，在无需重新渲染场景的前提下，生成物理上合理且符合真实光照规律的光照变化效果。我们将光照编辑建模为视觉令牌（visual token）空间中的一种序列到序列预测任务：给定一张输入图像及一组光照控制令牌（light-control tokens），模型可协同调整光源的位置、颜色与强度，并同步生成由此引发的反射、阴影及光照衰减效果，全部仅基于单一视角完成。这种将空间维度（如光源移动）与外观维度（如颜色、强度）统一建模的方式，不仅提升了光照操控的精度与灵活性，也增强了模型对光照物理特性的理解能力。此外，我们进一步提出一种自适应令牌剪枝机制（adaptive token-pruning mechanism）：该机制在保留富含空间信息的关键令牌的同时，以紧凑方式编码非空间属性（如颜色、强度等），从而将控制序列长度减少41%，同时严格维持光照编辑结果的保真度。为训练本框架，我们构建了一套可扩展的渲染流水线，能够在保持原始图像场景内容完全一致的前提下，高效生成大量涵盖多样化光源位置、颜色与强度组合的图像配对数据。实验表明，LightMover支持对光源位置、颜色与强度进行高精度、相互解耦的独立调控，并在多项评测任务中均取得优异的峰值信噪比（PSNR）指标，以及在语义一致性（DINO、CLIP特征相似性）方面展现出强大的鲁棒性与泛化能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

在单张静态图像上实现物理合理的光照编辑（如调整光源位置、颜色、强度）而无需3D场景重建或重新渲染，这是一个长期存在的挑战；传统方法依赖几何先验或GANs，难以同时保证几何一致性（阴影/反射/衰减）与语义保真度，且缺乏解耦、可控的多维光照参数调节能力。
关键思路

将光照编辑建模为视觉token空间中的序列到序列预测任务，引入轻量级光控token（含位置、色度、强度语义），并联合建模空间运动与外观变化；首创自适应token剪枝机制，在保留空间结构token的同时压缩非空间属性表示，显著缩短控制序列（-41%）而不损编辑质量。
其它亮点

构建了首个面向单图光照编辑的大规模可控渲染配对数据集（LightRender）；在PSNR、DINO/CLIP相似度上全面超越ControlNet、InstructPix2Pix和LightDiffusion等基线；支持细粒度解耦控制（如仅平移光源不改色温）；代码与数据集已开源；未来方向包括扩展至多光源交互建模与实时编辑部署。
相关研究

LightDiffusion: Controllable Illumination Editing via Diffusion Models (CVPR 2024); InstructPix2Pix: Learning to Follow Instructional Text for Image Editing (ICML 2023); ControlNet: Adding Conditional Control to Text-to-Image Diffusion Models (ICCV 2023); Zero-1-to-3: Zero-shot One Image to 3D Object (NeurIPS 2023); Illumination-Aware GANs for Shadow Removal and Relighting (ECCV 2022)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问