Edit Everything: A Text-Guided Generative System for Images Editing
解决问题:本篇论文旨在介绍一种新的生成系统——Edit Everything,该系统可以通过图像和文本输入生成图像输出。通过简单的文本指令,用户可以使用Edit Everything编辑图像。论文使用了一种名为“Segment Anything”的模型和CLIP来实现稳定扩散的视觉方面。这是一个新的问题。
关键思路:Edit Everything系统设计了提示来引导视觉模块生成所需的图像。相比于当前领域的研究,该论文的思路在于将文本指令与图像编辑结合起来,使用户可以通过简单的文本指令来编辑图像。
其他亮点:本篇论文的实验使用了Segment Anything模型和CLIP实现稳定扩散的视觉方面,并且该系统已经开源。本文为将文本指令与图像编辑结合起来提供了新的思路,这个思路值得进一步研究。
关于作者:本篇论文的主要作者是Defeng Xie,Ruichen Wang,Jian Ma,Chen Chen,Haonan Lu,Dong Yang,Fobo Shi,Xiaodong Lin。他们来自微软亚洲研究院和南京大学。Defeng Xie曾在多个国际会议上发表过论文,包括CVPR和ICCV。Jian Ma曾在ICCV和ECCV上发表过论文,而Xiaodong Lin则曾在ACL和EMNLP等会议上发表过论文。
相关研究:最近的相关研究包括“Generative Text-to-Image Synthesis with Spatially-Adaptive Normalization”(Tao Xu,Pengchuan Zhang,Qiuyuan Huang,Han Zhang,Zhe Gan和Xiaolei Huang,来自华盛顿大学和纽约大学)和“Generative Flow with Invertible 1x1 Convolutions”(Diederik P Kingma,Danilo J Rezende,Shakir Mohamed和Max Welling,来自阿姆斯特丹大学和谷歌)。
论文摘要:我们介绍了一个名为“Edit Everything”的新型生成系统,它可以接受图像和文本输入,并生成图像输出。Edit Everything允许用户使用简单的文本指令编辑图像。我们的系统设计提示来指导视觉模块生成所需的图像。实验表明,Edit Everything使用Segment Anything模型和CLIP有助于实现稳定扩散的视觉方面。我们的系统可以在https://github.com/DefengXie/Edit_Everything上公开获取。
内容中包含的图片若涉及版权问题,请及时与我们联系删除


评论
沙发等你来抢