Taming Stable Diffusion for Text to 360° Panorama Image Generation

2024年04月11日
  • 简介
    生成模型,如稳定扩散(Stable Diffusion),已经实现了从文本提示生成逼真的图像。然而,从文本生成360度全景图像仍然是一个挑战,尤其是由于缺乏匹配的文本-全景数据和全景图像与透视图像之间的领域差距。在本文中,我们介绍了一种新颖的双分支扩散模型PanFusion,用于从文本提示生成360度图像。我们利用稳定扩散模型作为一个分支,提供自然图像生成的先验知识,并将其注册到另一个全景分支中进行整体图像生成。我们提出了一种独特的交叉注意机制,具有投影感知能力,以在协同去噪过程中最小化失真。我们的实验验证了PanFusion超越了现有的方法,并且由于其双分支结构,可以集成额外的约束,如房间布局,以获得定制的全景输出。代码可在https://chengzhag.github.io/publication/panfusion中获得。
  • 图表
  • 解决问题
    论文旨在解决从文本生成360度全景图像的问题,这是一个挑战性问题,因为缺乏配对的文本-全景数据以及全景和透视图像之间的领域差距。
  • 关键思路
    论文提出了一种名为PanFusion的新型双分支扩散模型,将稳定扩散模型作为一条分支,为自然图像生成提供先验知识,并将其与全景分支注册以进行整体图像生成。论文提出了一种独特的交叉注意机制,具有投影感知能力,以在协同去噪过程中最小化失真。
  • 其它亮点
    论文的实验验证了PanFusion超越了现有的方法,并且由于其双分支结构,可以集成额外的约束条件,例如房间布局,以获得定制的全景图像输出。论文代码已经开源。
  • 相关研究
    最近的相关研究包括:1. “Generative Models for Text-to-Image Synthesis”;2. “Text-to-Image Generation Grounded by Fine-Grained User Attention”;3. “Text2Scene: Generating Compositional Scenes from Textual Descriptions”等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论