DragVideo: Interactive Drag-style Video Editing

2023年12月03日
  • 简介
    视频生成模型已经展示出了其生成逼真视频的优越能力。然而,如何准确地控制(或编辑)视频仍然是一个巨大的挑战。主要问题是:1)如何在编辑中进行直接而准确的用户控制;2)如何执行编辑,如更改形状、表情和布局,而不会对编辑内容产生难看的失真和伪影;以及3)如何在编辑后保持视频的时空一致性。为了解决上述问题,我们提出了DragVideo,这是一个通用的拖动式视频编辑框架。受DragGAN的启发,DragVideo通过提出拖动式视频潜在优化方法来解决问题1)和2),该方法通过根据拖动指令通过视频级拖动目标函数更新嘈杂的视频潜在来提供所需的控制。我们通过在DragVideo中将视频扩散模型与样本特定的LoRA和Mutual Self-Attention相结合来解决问题3),以确保编辑结果在时空上保持一致。我们还提供了一系列拖动式视频编辑的测试示例,并在各种具有挑战性的编辑任务中进行了广泛的实验,如运动、骨架编辑等,强调DragVideo可以以几乎不可察觉的失真和伪影的方式直观地、忠实于用户意图地编辑视频,同时保持时空一致性。虽然传统的基于提示的视频编辑无法完成前两个任务,直接应用图像拖动编辑也无法完成最后一个任务,但DragVideo的通用性和普适性得到了强调。Github链接:https://github.com/RickySkywalker/DragVideo-Official。
  • 图表
  • 解决问题
    论文旨在解决视频编辑中的三个主要问题:如何进行准确的用户控制、如何执行编辑而不会产生畸变和伪影、如何在编辑后保持时空一致性。
  • 关键思路
    论文提出了DragVideo框架,通过DragGAN启发,采用拖拽式视频潜在优化方法,通过视频级拖拽目标函数根据拖拽指令更新嘈杂的视频潜在变量来实现所需的控制,从而解决问题1和2。同时,通过将视频扩散模型与样本特定的LoRA和Mutual Self-Attention集成到DragVideo中,从而解决问题3。
  • 其它亮点
    论文展示了DragVideo在多个视频编辑任务上的实验结果,如运动、骨架编辑等,证明DragVideo可以以直观、忠实于用户意图的方式编辑视频,同时几乎不会产生畸变和伪影,且能够保持时空一致性。此外,论文提供了开源代码。
  • 相关研究
    最近在这个领域中,还有一些相关的研究,如:《Deep Video Portraits》、《Everybody Dance Now》等。
许愿开讲
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论