- 简介本文旨在通过对原始图像进行编辑,生成与提供的指令相符的图像。挑战在于接受多模态输入作为指令以及高质量训练数据的稀缺性,包括关键的源/目标图像对和多模态(文本和图像)指令三元组。本文专注于图像风格编辑,提出了StyleBooth方法,该方法提出了一个全面的图像编辑框架和一个可行的策略来构建高质量的风格编辑数据集。我们将编码的文本指令和图像示例作为扩散模型的统一条件进行整合,从而实现原始图像根据多模态指令进行编辑。此外,通过迭代式样-去样调整和编辑以及可用性过滤,StyleBooth数据集在各种风格类别中提供内容一致的风格化/普通图像对。为了展示StyleBooth的灵活性,我们进行了各种任务的实验,如基于文本的风格编辑、基于示例的风格编辑和组合风格编辑。结果表明,训练数据的质量和多样性显著提高了在编辑任务中保留内容和改善生成图像整体质量的能力。项目页面可在https://ali-vilab.github.io/stylebooth-page/找到。
-
- 图表
- 解决问题本论文旨在解决图像编辑中的多模态输入和高质量数据稀缺的问题,提出了StyleBooth框架和建立高质量样式编辑数据集的可行策略。
- 关键思路StyleBooth将编码的文本指令和图像示例作为扩散模型的统一条件,实现了按照多模态指令编辑原始图像的功能。通过迭代的样式-去样式调整和编辑以及可用性过滤,StyleBooth数据集提供了各种风格类别的内容一致的样式化/普通图像对。
- 其它亮点本论文的亮点包括:1.提出了StyleBooth框架和建立高质量样式编辑数据集的可行策略;2.实现了按照多模态指令编辑原始图像的功能;3.通过迭代的样式-去样式调整和编辑以及可用性过滤,提供了各种风格类别的内容一致的样式化/普通图像对;4.实验结果表明,高质量数据集显著提高了生成图像的内容保留能力和整体质量。
- 近期在这个领域中的相关研究包括:1. Image Style Transfer Using Convolutional Neural Networks;2. A Neural Algorithm of Artistic Style;3. Exploring the structure of a real-time, arbitrary neural artistic stylization network;4. Multi-Content GAN for Few-Shot Font Style Transfer。
NEW
提问交流
提交问题,平台邀请作者,轻松获得权威解答~
向作者提问

提问交流