Looking Backward: Streaming Video-to-Video Translation with Feature Banks

2024年05月24日
  • 简介
    本文介绍了 StreamV2V,一种实现实时流媒体视频到视频(V2V)翻译的扩散模型,并带有用户提示。与以前使用批处理处理有限帧的V2V方法不同,我们选择以流媒体方式处理帧,以支持无限帧。 StreamV2V的核心是一个向后看的原则,将现在与过去联系起来。这是通过维护一个特征库来实现的,该库存档了过去帧的信息。对于传入的帧,StreamV2V将自我关注扩展到包括存储的键和值,并将相似的过去特征直接融合到输出中。特征库通过合并存储的和新的特征来不断更新,使其紧凑但信息丰富。StreamV2V以其适应性和效率脱颖而出,无需微调即可与图像扩散模型无缝集成。它可以在一个A100 GPU上以20 FPS运行,比FlowVid,CoDeF,Rerender和TokenFlow分别快15倍,46倍,108倍和158倍。定量指标和用户研究证实了StreamV2V保持时间一致性的卓越能力。
  • 图表
  • 解决问题
    本论文旨在解决实时流媒体视频到视频(V2V)翻译的问题,并支持用户提示。相较于以往使用批处理处理有限帧的V2V方法,本论文采用流式处理帧以支持无限帧。
  • 关键思路
    StreamV2V的核心思想是通过维护特征库来将现在和过去联系起来。对于传入的帧,StreamV2V将自注意力扩展到包括存储在库中的键和值,并将类似的过去特征直接融合到输出中。特征库通过合并存储的和新的特征来不断更新,使其紧凑但信息丰富。
  • 其它亮点
    StreamV2V具有适应性和效率,可以无需微调与图像扩散模型无缝集成。它可以在一个A100 GPU上以20 FPS运行,比FlowVid,CoDeF,Rerender和TokenFlow分别快15倍,46倍,108倍和158倍。定量指标和用户研究证实了StreamV2V在保持时间一致性方面的出色能力。
  • 相关研究
    与此相关的最新研究包括FlowVid,CoDeF,Rerender和TokenFlow等。
PDF
原文
点赞 收藏 评论 分享到Link

沙发等你来抢

去评论