OPa-Ma: Text Guided Mamba for 360-degree Image Out-painting

2024年07月15日
  • 简介
    本文探讨了最近流行的话题,即如何在只有狭窄视野(NFoV)图像的情况下生成360度图像,这些图像可以来自单个相机或手机。该任务旨在从NFoV图像中预测合理且连贯的周围环境。现有的特征提取和融合方法通常使用基于Transformer的架构,会导致大量的内存使用和计算开销。它们在维护整个360度图像的视觉连续性方面也存在局限性,可能会导致不一致的纹理和风格生成。为了解决上述问题,我们提出了一种新颖的文本引导的外部绘画框架,配备了一个称为Mamba的状态空间模型,以利用其长序列建模和空间连续性。此外,结合文本信息是指导图像生成的有效策略,丰富了过程中的详细上下文并增加了多样性。有效地提取文本特征并将其与图像属性集成是360度图像外部绘画的重要挑战。为了解决这个问题,我们开发了两个模块,即视觉-文本一致性调节器(VCR)和全局-局部Mamba适配器(GMA)。 VCR通过将修改后的文本特征与图像特征融合来增强上下文丰富性,而GMA通过捕获从全局到局部表示的信息流来提供自适应状态选择条件。通过对室内和室外场景两个广泛使用的360度图像数据集进行大量实验,我们的提出的方法实现了最先进的性能。
  • 作者讲解
  • 图表
  • 解决问题
    本论文旨在解决通过单个摄像头或手机拍摄的窄视角图像生成360度全景图像的问题,以及现有方法在特征提取和融合方面存在的计算和内存消耗问题,以及在整个360度图像中保持视觉连续性的局限性。
  • 关键思路
    本文提出了一种基于文本引导的外部绘画框架,配备了一个称为Mamba的状态空间模型,以利用其长序列建模和空间连续性。此外,将文本信息纳入图像生成是一种有效的策略,可以通过详细的上下文丰富过程,并增加多样性。为了有效地提取文本特征并将其与图像属性集成,本文开发了两个模块,即视觉文本一致性细化器(VCR)和全局局部Mamba适配器(GMA)。VCR通过融合修改后的文本特征和图像特征来增强上下文丰富性,而GMA通过捕获从全局到局部表示的信息流提供自适应状态选择条件。
  • 其它亮点
    本文在两个广泛使用的360度图像数据集上进行了广泛实验,包括室内和室外环境,并取得了最先进的性能。实验设计合理,使用了文本信息引导生成图像,提高了多样性和上下文丰富性。此外,本文开发了两个模块,即VCR和GMA,以提高生成图像的质量。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如《360-Degree Panorama Generation from a Single Image》和《Single-Image 360-Degree Panorama Generation with Deep Learning》。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问