Visual Instruction Inversion: Image Editing via Visual Prompting
解决问题:本篇论文旨在解决语言描述图像编辑存在歧义和不够直观的问题,提出了一种通过视觉提示进行图像编辑的方法。该方法旨在学习一个基于文本的编辑方向,以便在新的图像上执行相同的编辑。
关键思路:本文的关键思路是利用预训练的文本到图像扩散模型的编辑能力,将视觉提示反转为编辑指令。与当前领域的研究相比,本文的方法更加直观和易于理解,且只需要一个示例对就能获得与最先进的文本条件图像编辑框架相当的结果。
其他亮点:本文的实验结果表明,该方法只需要一个示例对就能获得竞争性的结果。该研究使用了公开数据集,并且提供了开源代码。此外,该方法在图像编辑方面具有广泛的应用前景,值得进一步研究。
关于作者:本文的主要作者是Thao Nguyen、Yuheng Li、Utkarsh Ojha和Yong Jae Lee。他们分别来自美国加州大学圣地亚哥分校和加州大学戴维斯分校。他们之前的代表作包括:Thao Nguyen在CVPR 2020上发表了题为“Image Manipulation with Perceptual Discriminators”的论文;Yuheng Li在ICML 2019上发表了题为“Learning to Learn from Weak Supervision by Full Supervision”的论文;Utkarsh Ojha在CVPR 2019上发表了题为“Generative Modeling for Small-Data Object Detection”的论文;Yong Jae Lee在CVPR 2018上发表了题为“Diverse Image-to-Image Translation via Disentangled Representations”的论文。
相关研究:近期其他相关的研究包括:
- “Text-Guided Neural Image Editing” by Seonghyeon Nam, Yunji Kim, Seong Joon Oh, and Seungyong Lee from Korea Advanced Institute of Science and Technology, published in CVPR 2020.
- “Language-Based Image Editing with Recurrent Attentions” by Xinchen Yan, Jimei Yang, Kihyuk Sohn, and Honglak Lee from University of Michigan and Google Research, published in CVPR 2019.
- “Text2Scene: Generating Compositional Scenes from Textual Descriptions” by Jiajun Wu, Joseph Lim, Hongyu Ren, Li Fei-Fei, and Joshua B. Tenenbaum from Massachusetts Institute of Technology, published in CVPR 2017.
论文摘要:本文提出了一种通过视觉提示进行图像编辑的方法。虽然文本条件的图像编辑已经成为编辑图像的强大工具,但在许多情况下,语言描述图像编辑可能会存在歧义或无效。在面对这种挑战时,视觉提示可以是传达想法更具信息量和直观性的方式。我们的目标是学习一种基于文本的编辑方向,以便在新的图像上执行相同的编辑。我们利用了文本到图像扩散模型的丰富预训练编辑功能,通过将视觉提示反转为编辑指令来实现。我们的结果表明,仅通过一个示例对,我们就可以实现与最先进的文本条件图像编辑框架相媲美的结果。
内容中包含的图片若涉及版权问题,请及时与我们联系删除
评论
沙发等你来抢