- 简介生成模型,如稳定扩散(Stable Diffusion),已经实现了从文本提示生成逼真的图像。然而,从文本生成360度全景图像仍然是一个挑战,尤其是由于缺乏匹配的文本-全景数据和全景图像与透视图像之间的领域差距。在本文中,我们介绍了一种新颖的双分支扩散模型PanFusion,用于从文本提示生成360度图像。我们利用稳定扩散模型作为一个分支,提供自然图像生成的先验知识,并将其注册到另一个全景分支中进行整体图像生成。我们提出了一种独特的交叉注意机制,具有投影感知能力,以在协同去噪过程中最小化失真。我们的实验验证了PanFusion超越了现有的方法,并且由于其双分支结构,可以集成额外的约束,如房间布局,以获得定制的全景输出。代码可在https://chengzhag.github.io/publication/panfusion中获得。
- 图表
- 解决问题论文旨在解决从文本生成360度全景图像的问题,这是一个挑战性问题,因为缺乏配对的文本-全景数据以及全景和透视图像之间的领域差距。
- 关键思路论文提出了一种名为PanFusion的新型双分支扩散模型,将稳定扩散模型作为一条分支,为自然图像生成提供先验知识,并将其与全景分支注册以进行整体图像生成。论文提出了一种独特的交叉注意机制,具有投影感知能力,以在协同去噪过程中最小化失真。
- 其它亮点论文的实验验证了PanFusion超越了现有的方法,并且由于其双分支结构,可以集成额外的约束条件,例如房间布局,以获得定制的全景图像输出。论文代码已经开源。
- 最近的相关研究包括:1. “Generative Models for Text-to-Image Synthesis”;2. “Text-to-Image Generation Grounded by Fine-Grained User Attention”;3. “Text2Scene: Generating Compositional Scenes from Textual Descriptions”等。
沙发等你来抢
去评论
评论
沙发等你来抢