FRESCO: Spatial-Temporal Correspondence for Zero-Shot Video Translation

2024年03月19日
  • 简介
    这篇文章介绍了一种名为FRESCO的方法,它结合了帧内和帧间的对应关系,建立了更加稳健的时空约束,以确保在视频中转换语义相似内容时更加一致。相较于现有的零样本方法,该方法不仅仅是通过注意力机制来指导注意位置,而是通过显式的特征更新来实现高度的时空一致性,从而显著提高了翻译视频的视觉连贯性。大量实验表明,我们提出的框架在生成高质量、连贯的视频方面非常有效,是现有零样本方法的一个显著改进。
  • 图表
  • 解决问题
    本文旨在解决视频领域零样本图像扩散模型的问题,通过引入内帧对应性和外帧对应性建立更强的时空约束,提高视频的视觉一致性。
  • 关键思路
    本文提出了一种名为FRESCO的方法,将内帧对应性与外帧对应性相结合,显式更新特征以实现高空间-时间一致性,从而显著提高翻译视频的视觉连贯性。
  • 其它亮点
    本文的方法在多个数据集上进行了广泛实验,并证明了其有效性。此外,本文的方法还引入了显式特征更新的概念,以实现更高的时空一致性。
  • 相关研究
    最近的相关研究主要集中在将帧间对应性纳入注意力机制中,如DALL-E 2和CLIP。
许愿开讲
PDF
原文
点赞 收藏
向作者提问
NEW
分享到Link

提问交流

提交问题,平台邀请作者,轻松获得权威解答~

向作者提问