Looking Backward: Streaming Video-to-Video Translation with Feature Banks

向作者提问

NEW

简介

本文介绍了 StreamV2V，一种实现实时流媒体视频到视频（V2V）翻译的扩散模型，并带有用户提示。与以前使用批处理处理有限帧的V2V方法不同，我们选择以流媒体方式处理帧，以支持无限帧。 StreamV2V的核心是一个向后看的原则，将现在与过去联系起来。这是通过维护一个特征库来实现的，该库存档了过去帧的信息。对于传入的帧，StreamV2V将自我关注扩展到包括存储的键和值，并将相似的过去特征直接融合到输出中。特征库通过合并存储的和新的特征来不断更新，使其紧凑但信息丰富。StreamV2V以其适应性和效率脱颖而出，无需微调即可与图像扩散模型无缝集成。它可以在一个A100 GPU上以20 FPS运行，比FlowVid，CoDeF，Rerender和TokenFlow分别快15倍，46倍，108倍和158倍。定量指标和用户研究证实了StreamV2V保持时间一致性的卓越能力。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本论文旨在解决实时流媒体视频到视频（V2V）翻译的问题，并支持用户提示。相较于以往使用批处理处理有限帧的V2V方法，本论文采用流式处理帧以支持无限帧。
关键思路

StreamV2V的核心思想是通过维护特征库来将现在和过去联系起来。对于传入的帧，StreamV2V将自注意力扩展到包括存储在库中的键和值，并将类似的过去特征直接融合到输出中。特征库通过合并存储的和新的特征来不断更新，使其紧凑但信息丰富。
其它亮点

StreamV2V具有适应性和效率，可以无需微调与图像扩散模型无缝集成。它可以在一个A100 GPU上以20 FPS运行，比FlowVid，CoDeF，Rerender和TokenFlow分别快15倍，46倍，108倍和158倍。定量指标和用户研究证实了StreamV2V在保持时间一致性方面的出色能力。
相关研究

与此相关的最新研究包括FlowVid，CoDeF，Rerender和TokenFlow等。

许愿开讲

PDF

原文

点赞收藏

向作者提问

NEW

分享到Link

提问交流

提交问题，平台邀请作者，轻松获得权威解答～

向作者提问