Taming Stable Diffusion for Text to 360° Panorama Image Generation

简介

生成模型，如稳定扩散（Stable Diffusion），已经实现了从文本提示生成逼真的图像。然而，从文本生成360度全景图像仍然是一个挑战，尤其是由于缺乏匹配的文本-全景数据和全景图像与透视图像之间的领域差距。在本文中，我们介绍了一种新颖的双分支扩散模型PanFusion，用于从文本提示生成360度图像。我们利用稳定扩散模型作为一个分支，提供自然图像生成的先验知识，并将其注册到另一个全景分支中进行整体图像生成。我们提出了一种独特的交叉注意机制，具有投影感知能力，以在协同去噪过程中最小化失真。我们的实验验证了PanFusion超越了现有的方法，并且由于其双分支结构，可以集成额外的约束，如房间布局，以获得定制的全景输出。代码可在https://chengzhag.github.io/publication/panfusion中获得。
图表
解决问题

论文旨在解决从文本生成360度全景图像的问题，这是一个挑战性问题，因为缺乏配对的文本-全景数据以及全景和透视图像之间的领域差距。
关键思路

论文提出了一种名为PanFusion的新型双分支扩散模型，将稳定扩散模型作为一条分支，为自然图像生成提供先验知识，并将其与全景分支注册以进行整体图像生成。论文提出了一种独特的交叉注意机制，具有投影感知能力，以在协同去噪过程中最小化失真。
其它亮点

论文的实验验证了PanFusion超越了现有的方法，并且由于其双分支结构，可以集成额外的约束条件，例如房间布局，以获得定制的全景图像输出。论文代码已经开源。
相关研究

最近的相关研究包括：1. “Generative Models for Text-to-Image Synthesis”；2. “Text-to-Image Generation Grounded by Fine-Grained User Attention”；3. “Text2Scene: Generating Compositional Scenes from Textual Descriptions”等。

Taming Stable Diffusion for Text to 360° Panorama Image Generation

评论