OPa-Ma: Text Guided Mamba for 360-degree Image Out-painting

向作者提问

NEW

简介

本文探讨了最近流行的话题，即如何在只有狭窄视野（NFoV）图像的情况下生成360度图像，这些图像可以来自单个相机或手机。该任务旨在从NFoV图像中预测合理且连贯的周围环境。现有的特征提取和融合方法通常使用基于Transformer的架构，会导致大量的内存使用和计算开销。它们在维护整个360度图像的视觉连续性方面也存在局限性，可能会导致不一致的纹理和风格生成。为了解决上述问题，我们提出了一种新颖的文本引导的外部绘画框架，配备了一个称为Mamba的状态空间模型，以利用其长序列建模和空间连续性。此外，结合文本信息是指导图像生成的有效策略，丰富了过程中的详细上下文并增加了多样性。有效地提取文本特征并将其与图像属性集成是360度图像外部绘画的重要挑战。为了解决这个问题，我们开发了两个模块，即视觉-文本一致性调节器（VCR）和全局-局部Mamba适配器（GMA）。 VCR通过将修改后的文本特征与图像特征融合来增强上下文丰富性，而GMA通过捕获从全局到局部表示的信息流来提供自适应状态选择条件。通过对室内和室外场景两个广泛使用的360度图像数据集进行大量实验，我们的提出的方法实现了最先进的性能。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决通过单个摄像头或手机拍摄的窄视角图像生成360度全景图像的问题，以及现有方法在特征提取和融合方面存在的计算和内存消耗问题，以及在整个360度图像中保持视觉连续性的局限性。
关键思路

本文提出了一种基于文本引导的外部绘画框架，配备了一个称为Mamba的状态空间模型，以利用其长序列建模和空间连续性。此外，将文本信息纳入图像生成是一种有效的策略，可以通过详细的上下文丰富过程，并增加多样性。为了有效地提取文本特征并将其与图像属性集成，本文开发了两个模块，即视觉文本一致性细化器（VCR）和全局局部Mamba适配器（GMA）。VCR通过融合修改后的文本特征和图像特征来增强上下文丰富性，而GMA通过捕获从全局到局部表示的信息流提供自适应状态选择条件。
其它亮点

本文在两个广泛使用的360度图像数据集上进行了广泛实验，包括室内和室外环境，并取得了最先进的性能。实验设计合理，使用了文本信息引导生成图像，提高了多样性和上下文丰富性。此外，本文开发了两个模块，即VCR和GMA，以提高生成图像的质量。
相关研究

最近在这个领域中，还有一些相关的研究，如《360-Degree Panorama Generation from a Single Image》和《Single-Image 360-Degree Panorama Generation with Deep Learning》。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问