- 简介这篇文章介绍了一种名为FRESCO的方法,它结合了帧内和帧间的对应关系,建立了更加稳健的时空约束,以确保在视频中转换语义相似内容时更加一致。相较于现有的零样本方法,该方法不仅仅是通过注意力机制来指导注意位置,而是通过显式的特征更新来实现高度的时空一致性,从而显著提高了翻译视频的视觉连贯性。大量实验表明,我们提出的框架在生成高质量、连贯的视频方面非常有效,是现有零样本方法的一个显著改进。
- 图表
- 解决问题本文旨在解决视频领域零样本图像扩散模型的问题,通过引入内帧对应性和外帧对应性建立更强的时空约束,提高视频的视觉一致性。
- 关键思路本文提出了一种名为FRESCO的方法,将内帧对应性与外帧对应性相结合,显式更新特征以实现高空间-时间一致性,从而显著提高翻译视频的视觉连贯性。
- 其它亮点本文的方法在多个数据集上进行了广泛实验,并证明了其有效性。此外,本文的方法还引入了显式特征更新的概念,以实现更高的时空一致性。
- 最近的相关研究主要集中在将帧间对应性纳入注意力机制中,如DALL-E 2和CLIP。


提问交流