FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation

简介

这篇文章介绍了一种名为FRESCO的方法，它结合了帧内和帧间的对应关系，建立了更加稳健的时空约束，以确保在视频中转换语义相似内容时更加一致。相较于现有的零样本方法，该方法不仅仅是通过注意力机制来指导注意位置，而是通过显式的特征更新来实现高度的时空一致性，从而显著提高了翻译视频的视觉连贯性。大量实验表明，我们提出的框架在生成高质量、连贯的视频方面非常有效，是现有零样本方法的一个显著改进。
作者讲解

目前尚无作者解读视频，你可点击下方【许愿开讲】按钮，许愿作者开讲~
图表
解决问题

本文旨在解决视频领域零样本图像扩散模型的问题，通过引入内帧对应性和外帧对应性建立更强的时空约束，提高视频的视觉一致性。
关键思路

本文提出了一种名为FRESCO的方法，将内帧对应性与外帧对应性相结合，显式更新特征以实现高空间-时间一致性，从而显著提高翻译视频的视觉连贯性。
其它亮点

本文的方法在多个数据集上进行了广泛实验，并证明了其有效性。此外，本文的方法还引入了显式特征更新的概念，以实现更高的时空一致性。
相关研究

最近的相关研究主要集中在将帧间对应性纳入注意力机制中，如DALL-E 2和CLIP。