视频也能 P 了?

众所周知,视频编辑难度极高,若想要调整或替换主体,变换场景、色彩或是移除一个物体,往往意味着无数帧的手动标注、遮罩绘制和精细调色。即使是经验丰富的后期团队,也很难在复杂场景中保持编辑内容的时间一致性。近年来,随着生成式 AI 的快速发展,诸如「一键消除」等功能逐渐出现在各类剪辑软件中,令人们看到了 AI 在视频编辑方面的巨大潜力。

诚然,在实际应用中,除了「一刀切」的消除功能外,更高频使用且难度更大的往往在于替换、增加主体等需求,在技术方面涉及更加精准的目标识别、分割,以及视频生成。而当前的 AI 方法在复杂场景中处理这一类视频重绘任务时仍存在挑战,例如,当前很多零样本方法在处理连续视频帧时容易造成画面闪烁;对于背景复杂或多目标场景,可能会出现错位、模糊或语义偏差。

针对于此,北京大学相机智能实验室(施柏鑫团队)联合 OpenBayes贝式计算,以及北京邮电大学人工智能学院模式识别实验室李思副教授团队,共同提出了一种结合草图与文本引导的视频实例重绘方法 VIRES,支持对视频主体的重绘、替换、生成与移除等多种编辑操作。

该方法利用文本生成视频模型的先验知识,确保时间上的一致性,同时还提出了带有标准化自适应缩放机制的 Sequential ControlNet,能够有效提取结构布局并自适应捕捉高对比度的草图细节。更进一步地,研究团队在 DiT(diffusion transformer) backbone 中引入草图注意力机制,以解读并注入细颗粒度的草图语义。实验结果表明,VIRES 在视频质量、时间一致性、条件对齐和用户评分等多方面均优于现有 SOTA 模型。

VIRES 与 5 种现有方法在不同数据集上的多类指标得分

相关研究以「VIRES: Video Instance Repainting via Sketch and Text Guided Generation」为题,已入选 CVPR 2025。

目前,「VIRES:草图与文本双引导的视频重绘」已上线至 HyperAI超神经官网(hyper.ai)的教程板块,一键部署即可在线体验高质量视频编辑功能。笔者以定制实例生成为例,在户外雪地中增加了一只奔跑的柯基,栩栩如生毫无违和感 ⬇️

教程链接:https://go.hyper.ai/49koQ

我们还为新注册用户准备了惊喜福利,使用邀请码「VIRES」注册 OpenBayes 平台,即可获得 4 小时 RTX A6000 免费使用时长(资源有效期为 1 个月),数量有限,先到先得!

Demo 运行

1.进入 hyper.ai 首页后,选择「教程」页面,并选择「VIRES:草图与文本双引导的视频重绘」,点击「在线运行此教程」。

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3.选择「NVIDIA RTX A6000」以及「PyTorch」镜像,OpenBayes 平台提供了 4 种计费方式,大家可以按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

HyperAI超神经专属邀请链接(直接复制到浏览器打开):

https://openbayes.com/console/signup?r=Ada0322_NR0n

4.等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。由于模型较大,需等待约 3 分钟显示 WebUI 界面,否则将显示「Bad Gateway」。请注意,用户需在实名认证后才能使用 API 地址访问功能。

效果演示

点击 API 地址即可直接体验该模型,如下图所示。我们已经在教程中为大家准备了多个示例,欢迎体验!

 

笔者以「定制实例生成」为例,在在户外雪地中增加了一只奔跑的柯基,栩栩如生毫无违和感!

* prompt:

The video showcases a delightful scene of a corgi dog joyfully running back and forth in a snowy park. The park is adorned with trees and a playground in the background, setting a picturesque winter atmosphere. The corgi, with its orange and white fur and expressive eyes, repeatedly runs towards and away from the camera, kicking up snow with its paws and displaying a playful demeanor. The dog's fur appears glossy and silky, and its tail is energetically wagging throughout the video, highlighting its excitement and energy. The video captures the corgi's movements in detail, focusing on its bright eyes, muscular legs, and agile form as it frolics in the snow. The creator likely intended to share a heartwarming and visually appealing moment that showcases the joy and liveliness of a beloved pet in a beautiful snowy setting.

以上就是 HyperAI超神经本期推荐的教程,欢迎大家前来体验!

教程链接:https://go.hyper.ai/49koQ

 

内容中包含的图片若涉及版权问题,请及时与我们联系删除