- 简介本文介绍了 StreamV2V,一种实现实时流媒体视频到视频(V2V)翻译的扩散模型,并带有用户提示。与以前使用批处理处理有限帧的V2V方法不同,我们选择以流媒体方式处理帧,以支持无限帧。 StreamV2V的核心是一个向后看的原则,将现在与过去联系起来。这是通过维护一个特征库来实现的,该库存档了过去帧的信息。对于传入的帧,StreamV2V将自我关注扩展到包括存储的键和值,并将相似的过去特征直接融合到输出中。特征库通过合并存储的和新的特征来不断更新,使其紧凑但信息丰富。StreamV2V以其适应性和效率脱颖而出,无需微调即可与图像扩散模型无缝集成。它可以在一个A100 GPU上以20 FPS运行,比FlowVid,CoDeF,Rerender和TokenFlow分别快15倍,46倍,108倍和158倍。定量指标和用户研究证实了StreamV2V保持时间一致性的卓越能力。
- 图表
- 解决问题本论文旨在解决实时流媒体视频到视频(V2V)翻译的问题,并支持用户提示。相较于以往使用批处理处理有限帧的V2V方法,本论文采用流式处理帧以支持无限帧。
- 关键思路StreamV2V的核心思想是通过维护特征库来将现在和过去联系起来。对于传入的帧,StreamV2V将自注意力扩展到包括存储在库中的键和值,并将类似的过去特征直接融合到输出中。特征库通过合并存储的和新的特征来不断更新,使其紧凑但信息丰富。
- 其它亮点StreamV2V具有适应性和效率,可以无需微调与图像扩散模型无缝集成。它可以在一个A100 GPU上以20 FPS运行,比FlowVid,CoDeF,Rerender和TokenFlow分别快15倍,46倍,108倍和158倍。定量指标和用户研究证实了StreamV2V在保持时间一致性方面的出色能力。
- 与此相关的最新研究包括FlowVid,CoDeF,Rerender和TokenFlow等。
沙发等你来抢
去评论
评论
沙发等你来抢