Video In-context Learning

简介

本文中，与自然语言相比，视觉数据的上下文学习仍未得到充分探索。之前的研究主要是对图像的上下文学习，要求模型根据演示生成单张图像。本文提出并研究了视频的上下文学习，模型从现有视频片段开始生成多样的潜在未来序列，每个序列都在语义上由提示的视频演示引导。为了实现这一目标，我们提供了一个明确的任务定义，并在视频数据集上训练了一个自回归Transformer。我们彻底分析了不同数据集的影响，并将帧表示为离散标记，然后通过下一个标记的预测来对它们进行建模。我们设计了各种评估指标，包括客观和主观指标，以展示生成结果的视觉质量和语义准确性。我们的模型遵循缩放定律，并生成高质量的视频片段，与上下文示例提供的语义指导准确对齐。
作者讲解·1
- 讲解视频
- 相关报道(1)
图表
解决问题

本文旨在研究视频上下文学习，通过给定一个现有的视频片段，生成多样的潜在未来序列，每个序列都由提示的视频演示语义引导。
关键思路

本文提出了一种基于自回归Transformer的视频上下文学习方法，将帧表示为离散令牌，并通过下一个令牌预测进行建模。
其它亮点

本文设计了各种评估指标，包括客观和主观指标，以展示生成结果的视觉质量和语义准确性。实验表明，该模型生成的高质量视频片段与上下文示例提供的语义引导准确对齐。
相关研究

与此相关的最新研究包括《Image Transformer》、《Video Transformer Networks》等。

提问交流

提问交流