「图像编辑」太卷了！谷歌最新论文发布仅6小时就被自己砸了场子

文本引导的图像生成模型火了，同时带火的还有用文本提示对图像进行修改的模型。
比如已经有了一张照片或者是生成的图片，想要给图片中的猫加个帽子，或者给人物换个姿势、图像换个风格，用文字命令的形式输入到模型中，这个过程就叫基于文本的图像编辑（Text-Based Image Editing）。

本文将为大家介绍两个时下最新的「图像编辑」工具。
第一个是浏览器中在线就能用的Runway，其内置在AI Magic Tools下的「Erase and Replace」功能也是刚刚上线。

网站地址：https://runwayml.com/
第二个则是Google Research最近联合魏茨曼科学研究所发布的新模型Imagic，首次实现了应用于单一真实图像复杂的（非刚性的）语义编辑能力。

论文地址：https://arxiv.org/pdf/2210.09276.pdf
相比以往的方法限于特定的编辑类型（如物体叠加、风格转移）、仅适用于合成图像、或者需要一个物体的多张输入图像，Imagic可以改变图像中一个或多个物体的姿势和构成，同时保留其原始特征，比如让一只站立的狗坐下、跳起来，让鸟张开翅膀等等。

Stable Diffusion提供的重渲染功能每次编辑都会改变图像中其他的重要元素，所以老手们不得不再使用Photoshop修复丢失元素，而Imagic的处理结果更好（显然不利于Photoshop的推广）。
顺带一提，就在Imagic发布的6个小时后，就被自家兄弟砸了场子。

左为Imagic，右为UniTune
Google Research的第二篇论文中提出的模型UniTune同样是在单张图像通过文本对图像进行编辑。

论文地址：https://arxiv.org/pdf/2210.09477.pdf
UniTune方法的核心是，通过正确的参数选择，可以在单个图像上对大型文本到图像的扩散模型（文中使用Imagen）进行微调，促使模型保持对输入图像的保真度，同时允许用户进行转换操作。

内容中包含的图片若涉及版权问题，请及时与我们联系删除

「图像编辑」太卷了！谷歌最新论文发布仅6小时就被自己砸了场子

评论列表

评论