Lumen: Consistent Video Relighting and Harmonious Background Replacement with Video Generative Models

向作者提问

NEW

简介

视频重打光是一项具有挑战性但极具价值的任务，其目标是在替换视频背景的同时，对前景的光照进行相应调整，实现和谐自然的融合。在进行这种转换时，必须保留前景的原始属性（如反照率），并在时间帧之间传播一致的重打光效果。本文中，我们提出了Lumen，这是一个基于大规模视频生成模型的端到端视频重打光框架，支持通过灵活的文本描述来指导对光照和背景的控制。考虑到高质量配对视频（即前景相同但光照条件不同）的稀缺性，我们构建了一个包含真实与合成视频的大规模数据集。在合成数据方面，得益于社区中丰富的3D资源，我们利用先进的3D渲染引擎，在多种环境中生成视频配对。而在真实数据方面，我们采用基于HDR的光照模拟方法，以弥补野外真实场景中缺乏配对视频的问题。依托上述数据集，我们设计了一种联合训练策略，以充分发挥两个领域的各自优势：合成视频中的物理一致性，以及真实视频中的泛化域分布特性。为实现这一点，我们在模型中引入了一个具备域感知能力的适配器，以解耦重打光学习与域外观分布的学习过程。我们还构建了一个全面的基准测试平台，从前景保留和视频一致性评估两个角度，对Lumen及现有方法进行全面评估。实验结果表明，Lumen能够将输入视频有效地编辑为具有统一光照效果并严格保留前景特征的电影级重打光视频。我们的项目页面：https://lumen-relight.github.io/
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

论文试图解决视频重打光（video relighting）这一问题，即在替换视频背景的同时，合理调整前景的光照，使其与新背景自然融合，同时保持前景物体的原有属性（如反照率），并保证视频在时间上的光照一致性。这是一个具有挑战性但非常有价值的问题，尤其是在视频编辑和影视制作领域。
关键思路

论文提出Lumen，一个基于大规模视频生成模型的端到端视频重打光框架，能够接受灵活的文本指令来控制光照和背景变化。其关键思路在于结合真实与合成视频数据进行联合训练，并通过一个域感知适配器（domain-aware adapter）解耦光照编辑与域外观分布的学习，从而兼顾物理一致性和真实域泛化能力。
其它亮点

1. 构建了一个混合真实与合成的大规模视频重打光数据集，其中合成数据利用3D渲染引擎生成，真实数据基于HDR光照模拟补全。 2. 设计了一种联合训练策略，充分发挥合成数据的物理一致性和真实数据的泛化能力。 3. 提出域感知适配器，提升模型在不同域数据上的适应能力。 4. 构建了全面的视频重打光评估基准，涵盖前景保持与时间一致性两个维度。 5. 实验结果表明Lumen能够生成具有电影级光照一致性的编辑视频。 6. 项目已开源，提供在线演示页面：https://lumen-relight.github.io/
相关研究

1. Text-based Video Editing: A Survey and Comparative Study (2023) 2. NeRF-based Relighting of Humans from Monocular Video (2022) 3. Dynamic Lighting Editing for Video with Neural Illumination Fields (2023) 4. One-shot Video Relighting via Meta Learning and Neural Rendering (2022) 5. Physically-Guided Deep Video Editing: A Survey (2023)

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问