AnyLens: A Generative Diffusion Model with Any Rendering Lens

简介

最先进的扩散模型可以根据各种条件（如文本、分割和深度）生成高度逼真的图像。然而，经常被忽视的一个重要方面是在图像捕获期间使用的特定相机几何。不同光学系统对最终场景外观的影响经常被忽视。本研究介绍了一个框架，将文本到图像扩散模型与图像渲染中使用的特定镜头几何密切集成。我们的方法基于逐像素坐标调节方法，可以控制渲染几何形状。值得注意的是，我们演示了曲率属性的操作，实现了各种视觉效果，例如鱼眼、全景视图和球形纹理，只使用单个扩散模型。
图表
解决问题

本文旨在通过将特定的镜头几何与文本到图像扩散模型密切结合，解决在图像捕获过程中不同光学系统对最终场景外观的影响经常被忽视的问题。
关键思路

本文提出了一种基于每个像素坐标调节的方法，可以控制渲染几何形状，从而实现曲率属性的操纵，实现各种视觉效果。
其它亮点

本文的亮点在于将特定的镜头几何与文本到图像扩散模型结合起来，实现了对渲染几何形状的控制，可以实现鱼眼、全景和球形纹理等多种视觉效果。实验使用了多个数据集，并开源了代码。
相关研究

最近的相关研究包括：《Generative Adversarial Networks》、《Image-to-Image Translation with Conditional Adversarial Networks》、《Semantic Image Synthesis with Spatially-Adaptive Normalization》等。

AnyLens: A Generative Diffusion Model with Any Rendering Lens

评论