StyleMamba : State Space Model for Efficient Text-driven Image Style Transfer

简介

我们提出了StyleMamba，这是一个高效的图像风格转换框架，它将文本提示转换为相应的视觉风格，同时保持原始图像的内容完整性。现有的文本引导的样式化需要数百次训练迭代，并且需要大量的计算资源。为了加快这个过程，我们提出了一种有条件的状态空间模型，用于高效的文本驱动图像风格转换，称为StyleMamba，它将图像特征顺序地对齐到目标文本提示。为了增强文本和图像之间的局部和全局风格一致性，我们提出了掩码和二阶方向损失，以优化样式化方向，将训练迭代次数显著减少了5倍，推理时间减少了3倍。广泛的实验和定性评估证实了我们的方法相对于现有基线的强大和优越的样式化性能。
图表
解决问题

StyleMamba试图解决的问题是如何通过文本提示快速地进行图像风格转移，同时保持原始图像的内容完整性。这是一个新问题。
关键思路

论文的关键思路是使用条件状态空间模型对图像特征进行对齐，以实现快速的文本驱动图像风格转移。此外，论文还提出了掩蔽和二阶方向损失以优化风格转移方向，从而显著减少了训练迭代次数和推理时间。
其它亮点

论文通过实验验证了其方法的鲁棒性和优越的风格转移性能。论文使用了多个数据集进行实验，并且开源了代码。此外，论文提出的方法还有进一步深入研究的价值。
相关研究

最近的相关研究包括：1. Neural Style Transfer via Meta Networks；2. Adaptive Style Transfer via Reversible Neural Networks；3. Multi-Content GAN for Few-Shot Font Style Transfer。

StyleMamba : State Space Model for Efficient Text-driven Image Style Transfer

评论